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新 li 纪的朝阳刚刚露出丝抹斂红，加火如荼的全球信息化浪潮便汹涌而至， LI : 人 I 时尤刻小 
感受到新 •轮 P 卟革命的气息。如何在这场变平.中山 M 先机，既是对民族信息业的挑战，也是机 
遇。从而，作为 冗族 倍息产 彳 k 发展苺石的高等教育事业就被赋予/比以往更重的贪任，对培#利 
迫就我 W 21 叶纪的 代新人提! II 了更高的耍求。但4计算机科学突 IS 猛进的同时，1?业教材的 
发展却严重滞后，越米越成为人才培养的瓶颈。 N ) 时，以美 H 为代表的西方 wia 十寶机科学教育 
薛历了充分的发展，产生了一批冇着巨人影响力的经典教材，因此，以批判、借鉴的态度有选抒 
地引进这些 W 外经典 ii 算机教材.将促进旧内教学体系和 国外接 轨，大大推动我 Wih 算机教自忠 

业的发凇 


中 W 屯力出版补进入计 t 机阁书市场巳仃近6个年头，通过吧持 “ 高端、情品、经典”战略, 
致力尸外苫名出版机构合作，出版/人批博得汁算机业界和教育界赞誉的作品，通过与怡 g 技 
水教育界人 I : 的广泛 沟通，同則依托¥富的出版资源，中 H 电力出版衧适时推^了 外经典计算 

机科学教材”的出版汁戈 L 木次教材出 版计划 是和美 ® 最大的 计算机 教育出版机构 
育集 lij ( Addifion - W & sley , Prentice - Hall 等陴为其下属广公司 ） 合作 < 依托其数 I 年积累的人批 

经典教材资源，确保了教材选题的权威经典 。 

为侃证这 ft 教材的含 金蜻， 并做到有的放矢，我们在 w 内 m 织了由中 m 科学院、北京人学等 

一流 K 校教师组成的专家指泞委员会，对高校深程教宁体系做了系统、详细的调冇，听取了众多 

教育专家，行业专家的总见< 別教合部的 教育规 划进行了认真研究， 并深 入了解 w 外人学实教 

学选用的教桐状况，对 W 外教材做了理忖的分析< 确立了依托 H 家教育计划、传播先进教学理念、 

为培养符合社 会：耍 的尚素质创新型人才服苏，来作为本次 " W 外经典计算机科学教材”出版汁 
划的 ¥旨 I 


Pearson 教 




我们从2002 今的 卜 _ 半年幵始肴 T - 这套教材的策划工作，并多次组织了专家研 W 会、痄谈会 
等，分沂现有教材的优点 S 不足，采其.褚平，并力争体现本套教材的质量和特色。 

1 . 深入理解闽内的教学体系结构 T 几比照 H 外相冋 专业的课枰设 既具 fff 见呔的1£用件, 
乂☆:足发展眼光，具备一定的前瞻 n . 

2. 以汁算机专卟的核心课枵为基础，同时配合专业教学计划，争取覆盖专业选修课程和专 
仆任选凍 

3. 选取 W 外的段新教材版木，司則对照闲内问专业课稈的学时要求+对不适用妁版木 iiH 」 
剔除，充分满足 W 内教学要求。 

4. 根据专业对 n 和必须具备同课程教学经验的要氺，严格挑选 i 予者，丼严把质暈关，确保 


教材齠译的高欣 M 


5. 通过从原出版社网站卜载勘误表及与 原节作 者进行沟通的 方式， 对原书中的错误一一 徹 


7修改。 


6. 对教材出版的后期工作，如审校、编辑、排版、印刷进行了严格的质量把关 





经过专家指导委员会的免体 讨论， 并广泛听取广入高等院校师牛的葸见，反 y 比较， 从数汀 
种 M 外教材中遴选出数 I •种，列入第一阶段的出版计划。这些教材的作苒无 -- 不茫学常 K 个:的人 

师 t Jin Stallitigsr Date. Ullman, Aho t Bryants Sedgewick 等，他们的作品均是一版再版，汴岐 
众多 W 外一沆人学如 Stanford University, MIT, UC Bekerley > Carnegie Mellon Univeristy . 

University of Michigan 等采用为教材，拟 kf 的第 - ■阶段出版计划包括 30 种間 t 1 〕， 内 f ? 後苫 
设计、数据结构、操作系统、汁算机体系结构、数据库、编译原理 、软件 「-程、阐形学、通倍与 
网络、 离散数学等计算机专业核心基础课枵，笔本满足国内计算机专 t 的教学 要求。 

此外，为了帮助广大任课教师加深对本系列教材的埋解，减轻他们的备课难度，我们从 W 外 
Hi 版机构引进了大批的凍程教学辅助资料，并枳极延请 国内优 秀教师， 根据其 使用该系列教 W 中 

的教学经验，有 •-> 编写更加适合 a 内应用状况的教辅 材枓。 

由亍我们对国内鬲校计算机教 f 存在认识深度上的不足，在选题、翻评、编辑加工出版等方 

面的作中还有许多有待提高之处，恳请广大师生和读者提出批评和建议 JI ■•期 待有 更多的人加 

入到我们的工作中来。我们的联系方 式楚： 

电子邮件： csbook @ cepp . com + cn 

联系电话： 010-88515918-300 

联系地址：北京市西城 E 三里河路6号中国电力出版社 
邮政编码：100044 



译序 


作为-个程序员，我们经常被一些奇怪的程序问题所困扰。例如最近，我的一位朋友从经典的数 
据结构书上抄了一段关于计算有向图的函数实现代码，这个函数实现在 gcc 环境下的编译一点问题都 
没柯，但只要一实际运行，就会报段错误。我看了这段代码后 t 立刻就意识到问题出现在哪里了—— 
他在函数实现里分配了 H 6 MB 的局部变量导致栈溢出。类似这样的问题，还会有许多，不过在这 
些问题中，让程序员有麻烦的己经不是编程语言木身的问题,而是需要程序员更好地理解计算机系统, 
知道程序如何在 I ：十算机上被执行。理解计算机系统，不是简单地从艿市上购买一些介绍计算机系统的 
书.读一读而已。迄今为 ll ., 我对市面上这类节的了解是，对于大多数程序员而言它们都过于专业化， 
R 从书的内容和语言组织1：都偏重于原理的介绍 ，一 般程序员很难有时间和精力去消化和吸收书中的 
内容，更无从用这些计算机系统的知识来帮助自己解决程序问题， 

事实上，卨级语言编程和计算机系统被编程环境如 gcc 划分成两 张皮， 岛管程序员能用高级语 
言驱动计算机完成指定的计算任务，可是却不一定能很清楚地知道计算机是如何解释和执行程序代 


码的。 


我本人 是-个 计算机专业科班出身的人，学生期间学习到许多关于计算机系统的知识。可在实 
际研究丄作中，过去所学的 i 十算机系统知识变得遥远和模糊 . 1999年初，出于研究兴趣的 S 的，我 
设计了一个卨性能网络菔务器结构，并编写了它的实现。在此期间，使我明白一个髙性能服务器程序 
S 3 十算机系统之间的唇齿相依的关系。过去，促使我建立高级语言和计算机系统的联系来主要自于研 
究的 HiA )， 其采用的方法是遍寻国外关 f 系统编稈的邮件列表，并结合以往所学的计算机系统知识。 
这种方法固然能帮助我解决实际所碰到的问题，但却需要花费大量的吋间且没有条理 & 2003年元月， 
编辑部让我帮助他们从-批刚出版的外文书中挑一些可以在国内推广的书，我一眼就看中了这本由 

Bryant 和 0 _Hallaron 所著的 《Computer Systems : A Programmer's PerspectiveK 它就是我过去想要的书， 

我相信也是每一个想了解计算机系统的程序员想要的书。我迫不及待地从编辑芋中抢下此书的翻译工 
作，这个临时添加的任务改变了我和另一位译者2003年的生活。2003年8月底，终于完成此书的翻 
译 X 作，并起中文名为《深入理解计算机系统》。 

《深入理解计算机系统》的最大优点是为程序员描述计算机系统的实现细节，帮助其在大脑中 
构造一个层次型的计算机系统，从最底层的数据在内存中的表示（如大多数程序员一岜陌生或疑惑的 
浮点数表小)，到流水线指令的构成，到虚拟存储器，到编译系统，到动态加载库，到最后的用户态 
应用 □ 贯串本书的-条 _1 i 线是使程序员在设计程序时，能充分意识到计算机系统的重要性，建立起被 
所写程序可能被执行的数据或指令流图，明白当程序被执行时，到底发生了什么事从而能设计出一 
个高效、吋移植、健壮的程序，并能够更快地对程序排错、调整程序性能等。 

本书是通过程序员的视角来介绍计算机系统，3卩首先把高级语言转换成计算机所能理解的一种 
屮间格式（如汇编语言)，然后描述计算机如何解释和执行这些中间格式的程序，是系统的哪一部分 
影响程序的执行效率。所以，在讲述计算机系统知识的同时，也顺便给出了关于 C 语言和汇编语言 


(有可能是编译系统产 生的） 的编程和阅渎技巧，以及基本的系统编程技巧和工 同时， 还给出一 
_方法帮助程序员基] : 对计算机系统的理解来 SM 和改善程序的性能、及其它棘 - fM 题： 

本书的主要内容是关 F 计算机体系结构（尚级硬件 没计） 与编评器和操作系统的交互，包梠： 
数据表承；汇编语 a 和汇编级计算机体系 结构； 处理器设 ih 稈序的性能度量和 优化； 秤序的加载器、 
链接器和编译器：包括 I / O 和没备的存储器层次结构：虚拟存 储器： 外邹存储管理；中断、佶号和进 
程控制。对这些小同领 域知识 的介绍使我们能在编写系统程序时，基十系统忡能的考虑，采取一 t 更 
好的折中方案。 

本书强调对 计算机 系统的概念的理解，但并不意味着不动手。如果按照本书的安排做每一章后 
面的习题，将有助于理解和加深正文所述的概念和知识，并旦有时候，可以从实际动手中学习到新的 
知 ifU 如果不动手，空洞地去看文字，是很难理解文字背后的意义的。我个人的经 验是， 冇许多系统 
设计和槪念 t 看似简笮或不理解， n 了 -旦自己动乎做 N 样的试验，才更明当初的没计者为什么要如 

此设计。计算机系统就像 ft 然界的生态环境，对每-个部件的设计都要求它能融洽地和系统内其他部 
件和平相处，我们不能站在 个 微观的视角去看待系统部件的设计是否最优，而应该从宏观来观察和 


思考 


为方便理解本书的 h 容，本书的读者假定 A 备 C 语言编程的能力。由于原书是卡内基梅隆大 
学 ( CMU ) 的教材， FI 被其他一些著名的大学也选用为教材，因此，本书的读者+仅仅是那些因 
为工作和兴 趣而关 注本节的人，还包括-些在校的大学生，作为他们的教材或辅助性资料。个人认 
为，存:校学生越早接触本书的内弊，将越有利丁他们学习计算机的相关课秤，培养对 计筲机 系统的 
研究兴趣。 


总而言之，《深入埋解计算机 系统》 -书是一个桥梁，它帮助程序员衔接了计算机系统的各个领 
域的 知识， 为程序 员构造 f 一个概念性框架。对于各个领域（如计算机系统结构、处理器、操作系统、 
编译器、网络、并发编程）的知识进一步获取，还需要参考相关书籍。 

参加翻译的还有龚奕利、易金华和陈永兴等，在此也特别表示感谢。 

由于此书的内容量大，加上翻译时间并不很宽裕，尽管我们十分努力，但还是难以避免出现错误, 
以及冇在许多不尽人意的地方，欢迎广大读者批评指正，以便改进。 


雷迎春 

2004.2.15 

于北京中关村（中科院）青年公寓 



关于术语的翻译 


本 is 跨越讣算机的多个领域，涉及 jn 午多专业的术语。在翻译的过程中，我们尽可能地忠实反映 
原文的意思*但并不是每个术语的翻译都那么恰当，符合每个读者的阅读 > j 惯。不 nj 避免地 f 对某些 
术语的翻译带，我们个人的； J 惯和偏好，希望读者谅解 ，卜面， 我们解释在本书中频繁!11现的一些术 
语的翻译 。 


directive 

这个单词多用来描述 C 语言中类似 # include 的语句，或汇编语言中类似 .?^ 的语句，按照我的认 
识，这个单词应该译做《指令 ” 比较恰当，起着指导或导引的作用 . 但是，在 dir^tive 单闻出现的地 
方，还同时出现了 instruction ^ (这种现象以第 3 章为主），其中文的含义也是 “ 指令 ' 相比于 
directive、instruction 显然是一个更强势的单词。为了从屮文字面卜 _ 区分这两个中词，方便读者阅读 
我们在不影响基本意思的前提卜，翻译 directive 为命令。 

operation 

这是 个 遍布全苌的单词。它众多的意思中有两 个是： “ 操作 ” 和 “ 运算 ' 对这个单词的翻译 
我们没有采用 - 刀切的方法，而是埗可能采用国内读者的习惯来 0 译。 根据我自 d 的切身体会，以及 
网友对 opemtioii 译法的讨论，我们史倾向于在数学的领域内使用 “ 运算 ” ，而在计算机领域使用“操 
作 ” 。基于这个认识，以及牽节内容的安排，我们把第 2 章（该章涉及大量的数学描述）中出现的 
operation 主要译做 “ 运算 ' 而把其他章节中的 operation 主要鞋译为 “ 操作 ' 需要注意的是，这种 
划分并 4 、是绝对的。 

memory 与 storage 


1 


metnory 是一个我们非常熟悉的术语，我们一般把它习惯地称为“内存' 似是，通过本书第6 

章对 memory 的解释来看 t 仅有这样的理解是不足够的< 本书认为 memory 可以是不同容暈、成本和 

访问时间的存储设各 * 我们过去所认识的 memory 只是 DRAM 。听以，不能把 memory 简单地翻译为 
“內存 ”。 


从 memory 和 storage 这两个黾间的中文意思来看， memory 是“存储器”，而 storage H “存储， 

4储器' 另外，我们还观察到， memory 更多地以名词出现，描述一个静态的物理设备，而 storage 
除了 N 以作为名同出现外，还有动词的形式 （ store 、 storing 和 stored ) 。所以，我们取 memory 的中文 
意思为“#储器' 而取 storage (以及 store 、 storing 和 stored ) 的中文意思为“ 存储' 除此之外，如 
果在■句诂中，有 memory 和 storage 同时出现时，我们除了给出 storage 的中文释义外，还尽可能地 

附英文单 H 以#与 memory 的区别。 


hazard 


这是一个很扰人的体系结构领域的术语。在本书中，我们选用它的中文释义为“胃险”。实际上， 
我们在做学生时，大都良呼它的英文，很少说它的中文，选择它的中文译法真的是一件很麻烦的事情。 
曾经有一个网友告诉我，他看到一个“险象”的译法比较贴切^呵呵，为了这个术语的翻讦*我和他 
在网上争论 r 两天。仔细想想“险象”这种译法，确实不为错，但还不能完辛说服我选用它。因为， 
这个释义太过陌生，许多读者可能无袪联想到其对应的英文申词。而选用“冒险”，烬管不是那么完 
美，佰是大多数研究体系结构的读者会很熟悉。所以，对“冒险”的选用只是一种>]惯和默认。 


timer 


timer 的中文释 义有： “定时器，计时器' 尽管这两个中文释义都可以描述一个 现象： 间隔一段 
时间后产生个事件，但是我们认为这两者之间是有区别的。从中文字面來说_定时器的间隔更多是 
固定的，倾向 丁静 态性；而计时器的间隔更多是不固定的，有计算的意思，倾向 f 动态性 t 所以，在 
珠书的第9章中（该章主要描述系统评价)，我们主要把 timer 翻译为计时器，而在其他章节翻译为 
定时器 t 


local 


local 的中文释 义是： “本地，局部' 我们没有严格地区分它，完全是根据上下文描述的方便， 
来选用不同的释义。 

原书还出现了一些错误，这些错误只是我们个人认为的，很有 nj 能是我们理解错了。所以 f 我们 
在“篡改”原文的意思时，还尽可能地给出了原文的意思，以帮助读者甄别1 

我很喜欢这本书，且认为它的内容在 5 M 0 年内都有它存在的价值，但是 f 鉴于我们的能力和时 
间有限，不能保证完全忠实、准确地重述原文的意思，还需要广大读者的支持。希望广大读者在阅读 
本书的时候能积极地给我们指出其中错误，改善此书的质量，方便后来的读者从中更顺畅地获取知识。 



刖 


FI 


4 深入理解计算机系统 》 （Computer Systems: A Programmer’s Perspective, CS: APP ) 这本书的主 

要读者是那些想通过学习计算机系统的内在运作而提高自身技能的程序员。 

我们的 H 的是解释所有计算机系统的本质概念，并向你展》 这些概 念是如何实际地影响应用程 
序的正确性、性能和实用性的。与其他主要针对系统构造人员的系统类书籍不冋，这本书是写给程序 

屄的，是从程序员的角度来描述的。 

如果你学习和研究这本书电的概念，你将步入稀缺的 “ 权威程序员 ’’ 的行列*将知道事情是如 
何运作的 ^ 也知道在出現故障时如何进行修复，冋时，你也将做好学习其他具体系统主题的准备，比 
如编译器、汁算机体系结构、操作系统、嵌入式系统和网络互联， 


读者所应具备的背景知识 


本书中的范例是基于英特尔兼容的处理器（英特尔称之为 “IA32”， 即俗称的 “x&6”)、 在 Unix 
或类 Unbt (比如 Linux) 操作系统上运行的 C 语言程序。（为了简化我们的描述，我们将用 Unix 统称 
Solaris 和 Linux 这样的系统。）文中包括了大最己在 Lirmx 系统上编译和运行过的程序范例 & 我们假 
设你能访问一台这样的机器，并且能够登录，然后做一些诸如修改 A 录之类的简单操作。 

如果你的计算机运行的是 Microsoft Windows 系统，你有两种选择，第一，获取一个 Linux 的拷 
贝（参见 WWW+limix.org 或者 www.redhat.com)， 然后以“双重启动”模式安装它，这样你的机器就能 
运行任一个操作系统了。另-种选择就是，通过安装 Cygwin 」.具 (www.Cygwin.com ), 你就能在 

Windows 卜得到叶类似1)也的 shell 以及一个非常类似于 Limix 提供的环境不过， Cygwiti 并不 
能提供所有的 Linux 功能 e 

我们还假设你对 C 和 C++ 有一定的 /解 4 如果你以前只有 Java 经验，那么这种转换将需要你 
己付出更多的努力，不过我们也将帮助你 D Java 和 C 有相似的语法和控制语句。 

但是，有一些 C 语言的内容，特别是指针、显式的动态存储器分配和格式化 I/O, Java 中都是没 
有的。所幸的是， C 是一个较小的语言，并且在 Brain Kemighan 和 Dennis Ritchie 经典的 “ K&R ” 文 
字屮得到了清晰优美的描述[40]。无论你的编程背景如何， K&R 都应是你个人图书收藏的一部分。 

这本书的前几章揭示了 C 语言程序和它们相应的机器语言程序之间的交互作用。机器语言乐例 
都是用运行在] ntelIA32 处理器上的 GNUGCC 编译器生成的，我们不需要你以前有任何硬件、机器 
语言或是汇编语言编程的经验。 

铪 C 语畜初 学者： 关子 C 编程语亩 的建谀 

为帮助 c 语言編租背景薄琛的(或全无背景的）读者,也为了 a 调 c 中一珐玄要特性，我娜 
了专门的 注释. 我们假设你熟悉 C ++ 或 Java , 




















怎样阋读此书 


从#序员的角度来学习 if 算机系统如何丄作将非常有趣，主要是因为这个过稈 M 以非常上幼。尤 
论何时你学到一些新的东西，都可以4上试验接看到运结果。我们相倍学习系统的 
惟一方法就足做 （ do ) 系统，即在寅•正的系统上解袂 a 体的问题，或是编弓和 b 行程序 =■ 

这种 主题观 念贯穿令书。工引入•个新概念时，紧随其后的将是•个或多个练习题，你应读4上做 
兼来检验你的邳解 ，练 习题的解答在每章的末尾。与你阅读时，尝试 Uni 来解荇每个问题，然后冉查 
阅符案，看 t 自 d 是否 TF . 桷。每一章后 SI 都有-组不同难度的家庭作业题。你的指 导老师 / i : 教师手册中 
脊这些问题的答案。对每个家庭作、 Ik 题，我们标注了我扪认为的难度 级别： 

♦只耑要儿分钟。几乎或完全不需要编程。 

♦ ♦可能盂装将近20分钟 。 通常包括编写和测试•些代码， il : 多都取 fi 我们在％试屮的题 UU 

♦ ♦♦需要很大的努力，也许是！〜2个小时。一般包杞编写和测试大量的代码。 

♦♦♦♦___ 个实验作业，需要将近 10 个小时。 

文令每段代 码小例 都是 C 稈序，经过版本为 2+95.3 的 GCC 编 i 予并江 内核版本为2216的 Linux 
系统1:1试后岜接十成的，没有任何人为的改动 D 所有源程序代码均吋从本朽的主页 （ csap p 
edu ) 上获取6在文源程序的文件名列在两条氷平线的右边，水 平线之 间是格式化代码。比如， 
图 R 1 巾的程序能在 code/intio H 录下的 hdlac 文件中找到，我们鼓励你，气遇到这些小例种序时， 
在你的系统上试试运行它们。 


.cs.cmQ. 


code/intro/hetto. c 


1 ft Include ^ stdio . h > 


3 int main () 


print !(" hello , world \ n ")； 


code/intro/helh.c 


图 p .〗 一个典型的代码示例 

称注的）包貪了一驻你吋能会觉得冇趣似叮以略过而不影响阅读连 s 


起后，有!^部分（用 


U 
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性的东 


旁注： 什么是旁注？ 

整本书中，你将会遇到很多以这种形式出现的旁注.旁注是附加说明、能使你对由前讨论的主题 

多一些了解 • 旁注有很多目的. 一 些是小的历史故事， 例如， C 、 Linux 和 Internet 是从何而来的？有 

时，旁注是用来阐明学生们经常感到疑惑的问题，例如，高速缓存的行、组和块有什么区别？还有的 

时候，旁注给出了一些现实世界的例子，倒如，一个浮点错溪怎么跃掉了法国的一枚火谓％或是一个 

真正的 BM 磁盘驵动器看上去是什么样子 & 最后，还有一些旁注仅仅就是笑料，例如，升么是 
ft hoinky w ? 


把一个常 t 乘法转化为一系列的移位和加法 a 我们用 C 的位级操作来说明布尔代数的原理和 
m . 我们从如何表示浮点值和 if 点操作的数学属性方面讲述 IEEE 标准的浮点 格忒。 

对计筇机算术的深刻理解是写出可靠程序的关键.比如，不能用 （ x _ y <0) 来取代 （ x < y )， 
因为可能会产生溢出 D 甚电 也不能用表达式 (- y <- x ) 来取代，因为在二进制补码表 承中负 
数和正数的范围是不对称的。算术溢出是程序错误的一 个常见 根源，然而很少 有+从 一个程 
序员的角度去讲述计算机算术的特性 a 

第 3 章： 程序的机器级表示。 我们教学生如何读由 C 编译器生成的 1 A 32 T 编语言。我们说 
明为不冋拧制结构，比如条件、循环和开关语句，生成的基本指令模式。我们还讲述过程的 
执行，包括栈分配、寄存器使用惯例和参数传递。我们讨论不司数据结构如结构、联合 ( union ) 
和数组的分配和诂问方式。学习本章的槪念能够帮助学生成为更好的程序员，因为他们懂得 
他们的程序在机器上是如何表示的。另外一个妙处在于学生们对指针有/具体的 了解。 

第 4章：处 理器体系结构 。这-章讲述基本的组合和时序逻辑元素，井展示这些兀素也数据 
路径 Cdatapath ) 中如何组合到一起，来执行 IA 32 指令集的…个称为 “ Y 86” 的简化了集。 

我们从设计单时钟周期、非流水线化的数据路径开始，然后扩展成一个 ii 阶段、流水线化的 

设本章中处理器设 i 彳的控制逻辑是用一种称为 HCL 的简单硬件描述语自来描述的。用 

HCL 写的硬件设计能够编译和链接成本书中提供的图形处理器的模拟器。 

第 5 章： 优化程序性能。 在这一章里， 我们介绍许 多提髙代码性能的技术。我们从与机器无 
关的程序转换开始，这些标准是在任何机器上写任何程序时都应该谌 循的。 然后是那些功效 

有赖 j : H 标机器和编评器特性的转换。为 f 促进这些转换，我们介绍了个简申的操作模型 f 
它描述了现代乱序 ( out - of - order ) 处理器是如何工作的，然后向学生们展示怎样利用这个模 

型来改进他们的 C 程序的性能。 

第 6章： 存储器层次结构， 对应用程序员来说，存储器系统是计算机系统中最直接可见的部分 
之-。到 G 前为止 f 学生们一直认同这样一个存储器系统概念模軋认为它是一个有一致访问 
时间的线性数组。实际上，存储器系统是一个甴不同容量、造价和访问时间的存储设备组成的 
次结构。我们讲述不同类型的隨机存取存储器 （ RAM ) 和只读存储器 ( ROM ) 以及现代磁 
盘驱动器的儿何形状和组织构造< 我们描述这些存储设备是如何放置在层次结构中的，讲述访 
问局部性是如何使这种 k 次结构成为可能的 6 我们通过个独特的观点使这些理论具体化、形 
象化，那就是将#储器系统视为“存储器山' 1)1 脊是时间局部性，而斜坡是空间局部性。域 
后，我们向学 生们阐 述如何通过改善时间和空间 M 部性来提卨应用程序的件能 D 

第7章：链接。木章讲述静态和动态链接，包括的槪念有对重定位的 ( relocatable ) 和 nf 执 
行的 H 标文件、符号解析、重定位 （ rdocati ™)、 静态库、共爭 H 标库，以及与位置 X 关 

的代码。大多数系统书中都不涉及链接，而我们出 f 下面儿个原因要讲述它。第一，学生 
们遇到的最迷惑的问题中，有一些是和链接时的小故障有关，尤其是对那些大型软件包来 
说。第一，链接器生成的 H 标文件是与一些像加载、虚拟存储器和存储器映射这样的槪念 


相关的 


第 8章： 异常控制流。 在课程的这个部分，我们通过介绍异常控制流（比如， lH 常分支和过 
程调用以外的抟制流变化）的一般概念打破单-程序的模型。我们给出存在于系统所有层次 
的异常控制流的例 T , 从底层的硬件异常和冲突，到并发进程的上下文切换，到 Unix 信号 


本书的起源 


本书起源子1998年秋季我们在卡内基梅隆 （ CMU ) 人学开设的一编号为 \ 5 - m 的介绍性课 

程:计算机系统导论 （Introduciion to Computer System , ICS ) [71。 从那以后，每学期都幵设 F ICS 

这门课枰，每期有 150 名左右的学生，大多数是计算机科学和计算机 I: 程专业二年级的学生。后来， 
这1课枰还成为了 K 内基梅隆大学计算机科学系以及电子和计算机 X 秤系中人多数卨级系统课枵的 
先行必 修课。 

ICS 课程的宗旨是用一种不 N 的方忒向学卞介绍计算机。因为，我们的学生屮几乎没有人有机会 
构造计烊机系统。另一方面，大多数学甚至是 if 算机丄程师，也要求 n 常能使用计算机和编巧计 
筧机稈序％所以我们决定从程序员的角度来讲解系统，并采用这样的过滤 方法： 我们只 w 论那些影响 
nj 户级 c 枵序的性能、正确性或实用性的&题。 

比如 * 我们排除了讓如硬件加法器和总线设汁这样的主题，虽然我们谈及了机 器语& ; 旦是不又 
注卯何编写 r 编语^而是欠心 c 稃宇是如何被构造的，例如编译器是如何翻译指针、循环.过枰 
调用和返回以及开关 (switch) 语句的。更进一步，我们将更广泛和现实地看待系统，包括硬件和系 
统软件 f 涵盖了链接、加载、进程、信号、性能优化、评估、 I/O 以及网络与并发编枵。 

这种做法使得我们讲授 ICS 课程的方式对学生来讲既实用、具体，还能动 T ， 同时也非常能揭动 
学生的积极性。很快地，我们收到來自学生和教职工非常热烈和积极的反响，我们意识到卡内基梅降 
人学以外的其他人也可以从我们的方法中获益。因此，历时两年，这本祍从 ics 课枵笔 id 中庖迖向生 


旁注：与 iCS 有关的数字 

跟 ICS 深祖有关的数字^^别，在第一学期过半的时候，我们发现深租的编今 （15-213) 正好就是 
卡内基梅隆大学的邮玫编码，因此，还有了这样的话： M 5-213: 给予卡内基梅 * 大学精神的课租 ! w 1 
无独有偶，手稿的第一版是在2001年2月13日 （2/13/01) 印刷的 . 当我们在 SIGCSE 7 教育会议上 
介绍这门课程时，被安排在了 213房间，并且此书的最后一版有13个章节 a 好在我们并不迷信！ 


本书概述 


本书山13章组成^旨在阐述 it 算机系统的核心概念。 

• 第]章：计算机系统及游。这-■章通过研究 “Mlo, world” 这个简单程序的生命周期 T 介绍 
计算机系统的主要槪念和主题。 

• 第2 章： 信息的表示和处理。我们讨论计 W 机算术，重点描述对程序员有影响的无符马和二 
进制补码 （two’s comptemem) 的数字表冶法的特性。我们考虑数字是 如何表 &的，以及山 

此确定对 f 一个给定的字长，其句能编码值的范围。我们探有符号和无符号数字之间类型 

转换的效果，还阄述算术操作的数学特性。学生们很惊奇地了解到（_一.进制补码表氺的）两 

个止数 的和或者积町以为负。另-方面，二进制补码算法满; d 环的特性，因此，编译器吋以 


] Zip 既有“邮政编码"也有“精神"之意.一译者 

S1GCSE 代表 Specia] Interest Group on Computer Science Education ， 计算机科学教育特殊兴趣组-—译者 
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传送引起的控制流突变，到 C 中破坏栈原则的非本地跳转 (nonlocal jump ) 0 

在这一章，我们还向学 1/. 们介绍进程的基本概念。学屮们了解进程是如何X作的，以及 
如何在应用程序中创建和操纵进程。我们向他们展示应用程序员如何通过 Unix 系统调币使 
用多进程。学完本章，他们就能够编写带作业控制的 Unix 脚本了。 

第9 章： 测量程序运行时 UK 这章 教给学 生计算 机是如何理解时间的[时间间隔 il 时器、 
CPU 周期计时器 （ cycfeti ； ner) 和系统时钟当我们试图用这些时间來测景柙序运行时时间 

的错误根源，以及怎样运用这些知识来得到准确的度暈值。据我们所知 f 这是惟一的在以前 
还未以任何常规的方式 W 论过的内容 。 我们在此 W 论这个主题是因为它需要对汇编语言、进 

程和高速缓存有所了解。 

第 10 章：虚拟存棣器。我们讲述虚拟#储器系统是希望学生们对它的工作和特性冇所 f 解。 
我们想让学生了解为什么不同的并发进程各自都有一个相同的地址范围，能共皁某些页，但 

另外一拽页又是独占的。我们还覆盖一些管理和操作虚拟4储器的问题。特别地，我们讨论 

了存储分配操作 1 比如 Unix 的 malloc 和 free 操作。阐述这呜内容是出 f 卜面几点卩的。它 

加强了虚拟存储器空间只是字节数组，程序可以把它划分成不同存储单元的概念。 它 帮助学 

生理解包含有像 存储泄 漏和非法措针引用这样存储器引用错误的程序的后果。最后. il ■多应 

用程序员编写自己的优化了的存储分配操作来满足应用程序的需要和特性£ 

第 n 章： 系统级 1/0. 我们讲述 Unix I/O 的基本概念，例如文件和描述符。我们描述如何共 
享文件， I/O 重定向是如何I：作的，还有如何访问文件的兀数据。我们还开发丫 -个健壮的 
带缓冲区的 I/O 包，可以正确处理 short counts. 我们阐述 C 的标准 I/O 库，以及它与 Unix I/O 

的关系，電点淡到标准1/0的局限性，这些局限性使之不适合网络编程。总地说宋，木章的 
论题 是后曲 两章网络和并发编程的基础。 

第12 章： 网络编程。对编程而吉，网络是非常冇趣的 I/O 设备，将许多我们前面文中学>』 
的概念，比如进程、信号、字忮顺序 (byteordering), 存储器映射和动态存储器分配，联系 

在一起，网络程序还为并发提供了强 制性上 下文，这是卜-章的论题。本章是网络编稈的细 
小片段，使学生们能够编写 Web 服务器 。 我们还讲述位 F 所有网络程序底层的客户端-服务 
器模型。我们展现了 -个程序员对 Intemet 的观点，并且教给学生们如何用套接字 (socket) 
接 U 来编写 Internet 客户端和服务器。最后 f 我们介绍起文本传输协议 HTTP， 并开发了一 
个简笮的迭代式 （iterative) Web 服务器。 

第13 章： 并发编程。这。章以 Imernet 服务器设计为例向学生们介绍了并发编程。我们比较 
对 照了二 种编写并发程序的基本机制〔进程、1/0多路复用技木以及线程)，并 U 展承如何用 
它们来建造并发 Internet 服务器 。 我们探讨了用 P、 V倍号操作、线程安全和町重入 
Cr^ntrancy), 竞争条件以及死锁等来实现同步的基本原则。 


可以基干本书的课程 


指导教师可以使用本书来教授五种不同的系统课程（图 P .2)。 特殊的课程则有赖于课程需要、个 
人品位、学生的背景和能力 & 图中的课程从左往右，逐渐强调以稈序员的角度看待系统，以下是简单 


的描述 


ORGt -门以 -II ■传统风格介绍传统问题的计算机组成原理课枵。传统的主题包括逻辑设计、 
处理器体系结构、汇编语言和存储器系统。然而，耑要更多地强调对程序员的影响。例如， 
要反过来考虑数据表不对 C 程序的影响。学生彳 U 将卞习到如何用机器语言来表小 c 结构。 
ORG+: ORG 课程特别强调硬件对应用程序性能的影响，和 ORG 课程相比，学生要 更多地 
学； J 代码优化和改进他们 C 枵序的存储器性能。 

1 CS : 基本的 1 CS 课稈，旨在培养开明的枵序员，他们理解硬件、操作系统和编译系统对应_ 
用程序的性能和正确性的影响，和 ORG+ 课程的一个显著不网是，本课程不论及低级 处理器 
体系结构。相反地，程序员弓现代乱序处理器的高级模型打 交道. ICS 课程非常适合安排成 
一个10周的学期，如果步调吏从容一些 * 也 W 以延 K 为一个15周的学期。 

ICS+； 基本的 ICS 课甩额外论述一些系统编程问题，比如系统级 UD、H 络编程和并发编 

这是一I」 一 学期长度的卡内萆梅隆大学课程，会讲述本书中除了低级处理器体系结构以 

外的母一 

sp ; 门系统编程课程。和 ics+ 课枵相似，但是抛弃 r 浮点和性能优化 t 更加强调系统编 
稈，包括进稈控制、动态链接、系统级I/O、网络编程和并发编枵。指导教师坷能会想从其 
他渠道对某些高级论题做些补充，比如守护进程 (daemon). 终端抟制和 Unix IPC (进程间 


通倍）。 


论題 


ICS+ 


SP 


ORG 


ORG+ 




m-m 

数据表尔 

处理器体系 
代 64 优化 
存储器 E 次钴构 


( d ) 


Ca ) 


链接 


0 ( t ) 


异常抟制流 
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(b> 


图 P .2 五门基干本书的课程 

fl'S ： fa) fU] 硬件； （ b) i: 动态存储分 K: Cc) : t 动态 链接： （ d ) 尤浮点 t ICS+ 足长内 * 梅隆的 15-2]3 课 


阁 p .2 竖表込的主要信息是本书给了你多种选择。如果你希望你的学生更多地 r 解低级处理器体 
系结构，那么通过 0 RG 和 ORG + 课程可以达到 U 的。另一方面，如果你想将当前的计算机组成课程 
转换成 1 CS 或者 ICS + 课程，但是又担心突然做这样猛烈的变化，那么你町以逐步递增转向 ICS 课私 
你 pI 以从 OGR 课枵开始，它以 神 非传统的方式教授传统的问题 。一 卩你对这些内容感到驾轻就熟 








了，就 nj ■以转到 ORG +, 敁终转到 ICS 。 如 果学叱 没有 C 的经验（■比如他们只用 Java 编过柷序)，你 
口 J 以花儿周的时间在 C b 然后再讲述 ORG 或者 ICS 课杩的内容。 

最后，我们认为 ORG + 和 SP 课程适合安排为两期（两个苧度成 If 两个学期）。或者你吋以考虑按 
照期 1 CS 和一期 SP 的方式来教授 ICS + 课^ 


课堂测试的实验练习 

P 内基梅隆大卞的 ICS + 课程得到厂学们很高的 if 价。这 I ' j 课的中值分数…般为 5 T 0/5.0 t T 均 
分数一般为4.6/5.0。学生们表扬说这门课非常有趣，令人兴奋， 卞要 就是因为相关的实验练习。卜面 
是本书提供的一些实验的示例。 

• 数据实验、这个实验要求学生们实现简单的逻辑和算术函数，但是/4能使用-个萵度受限的 
C 的子集。比如，他们必须只能用位级操作来计算个数字的绝对值.这个实验帮助学生们 
了解 C 数据类型的位级表示，和数据操作的位级行为。 

• 二进制炸弹实验 。 二进制炸弹是个作为 H 标代码文件提供给学生们的程宇。运打时，它提 
小-用户输入6个不同的字符串。如果其中的任何一个不正确 ， 炸押就会“爆炸”，打印出一 
条错误信息，并 fl 在分级 ( grading ) 服 务器上 E 录事件 F 1 志。学生们必须通过对稈序反汇编 
和逆向工程来测定应该是哪6个串，从而解除他们各白炸弹的雷管。该实验教会学生理解汇 
编语言，并 R 强制他们学习怎样使用调试器。 

• 缓冲区溢出实它要求学生们通过研究个缓冲区溢出的错误，来修改二进制 pJ 执什文件 

的运行时行为。这个实验教会学1:们栈的原埋，并让他们了解到丐那种易于1受缓冲 K 溢出 
攻击的代码的危险性 a 

• 体系结构实验 D 第4章的/ I 个家庭作业问题能够组合成一个实验作收，在实验中，学生们修 

改处理器的 HCL 描述以増加新的指令、修改分支预测策略，或者增加或删除劳路路径和寄 

存器端 rk 设计出来的处理器能够被模拟，并通过运行0动化测试检测出大多数可能的错误。 

这个实验使学生们能体验到处理器设计中令人激动的部分，而不需要他们学习和建造用 
Verilog 或者 VHDL 语言写的复杂而低级的模块 E 

* 性能实验。学生们必须优化应用的核心函数（比如卷积积分或矩阵转置）的性能。这个实验 
非常清晰地表明 r 髙速缓存的持性，并给学生们低级程序优化的经验。 

• shell 实驗。学牛们实规他们自己的带有作业控制的 Unix shell 程序，包括 ctrf - c 和 ctrl - z 桉键、 
■ 

fg 、 bg 和』咖命令。这是学生们第一次接触 汴发， 并且让他们对 Unix 的进程控制、信号和 
倍号处理冇清晰的了解。 

• malloc 实验。学生们实现他们白己的 maJloc、free W realloc ( nj 选地）版本。这个实验让学 

屮们清哳地理解数据的布 M 和组织，并且要求他们评估时间和苧间效卒的各种权衡和折中 U 

• 代理实验。学生们 实现一 个位1、浏览器和万维网其他部分之间的并行 Web 代理 ， 这个实验向 

学牛们 掲小了 Web 客户端和服务器这样的问题，并且联系起了课程中作多概念，比如字订排 

序、文件 I / O 、进程控制、信号、信号处理、4储器映射、套接字和并发 ， 

本书的教师手册有对实验的详细 i 彳论，还冇关于 卜载支 持软件的说明 。 
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L 10 小结 
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计琴机系统是由硬件和系统软件组 成的， 它们共同工作来运行应用稈序。虽然系统的 A 体实现方 
式随着 时间不 断变化，但是系统内在的概念却没有改变。所有计算机系统都由相似的硬件和软件组成, 

它们乂执行着相似的功能 t 这本书是为这样一些程序员而写的，他们希望通过/解这些 部件如 何丄作 

以及如何影晌程序的准确性和性能，来提卨自身技能。 

你现在就要开始 次 有趣的漫游历程了。如果你全力投身学习本书中的概念，理解底 M 计算机 
系统的本质和它如何影响你的应用程序，那么它将指引你步上成为稀缺的“权威程序的道路 t 

你将开始学习一些实践技巧，比如如何避 免由计 算机表示数字方式引起的竒怪的数字错误。你将 
学会怎样通过一些聪明的小窍门来优化你的 C 代码，这些小窍 N 运用了现代处理器和存储器 
( memory ) 系统的设计。你将了解到编译器是如何实现过程调用的，并 K 了解到如何利用这个知识 
来避免缓存区溢出错误带来的安全漏洞，这些错误给网络和 Internet 软件带来了巨大的麻烦.你将学 
会如何认识和避免链接时那些令人 i 寸坎的 错误，它们困扰着普通的 程序& 你将学会如何编写自 d 的 

Unix shell ^自己的动态存储分配包，甚至于自 d 的 Web 服务器！ 

在 Kemighan 和 Ritchie 的关于 C 编程语言的经典文章 [40] 中，他们通过图1 + 1中所示的 hello W 
序来向读者介绍 C。 尽管程宇是一个非常简单的程序，但是为了完成它的执行，系统的每个 t 
要组成部分都需要协调丄作。从 S 种意义上来说，本书的目的就是要帮助你了解当你在系统上执行 
hello 枵序时 T 系统发生了什么以及为什么会如此运作。 


code/intro/heiio^c 


ttinclude <stdio.h> 


main ; 


printf ( 11 hello, worldXn 11 ); 


code/intro/hello.c 


图 1.1 hello 程序 

我们通过趿踪 hello 程序的生命周期宋开始我们对系统知识的学习，它的生命周期从它被程序员 
创建幵始，包括在系统上运行、输出简单的消息，然后终止，我们将沿着这个程序的牛命周期，简要 
地介绍一@逐步出现的关键概念、专.术语和成分 D 后面的章节将[ I 绕这些内容展开。 


1.1 信息就是位+上下文 

我们的 he ] k > 秤序的4:命是从个源程序（或者说源文件）开始的，该源程序由程序员通过编辑 
器创建并保存为文本文件，文件名就是 hdlo . c 。 源程序实际上就是一个巾0和1组成的位（乂称为比 

特）序列，这些位被组织成8个一组，称为字节。每个字节都表示枵序中某个文本字符。 

大部分的现代系统都使用 ASCII 标准来表示文本字符，这种力式实际卜 1就是用 - 个惟一的字节 
大小的整数值来表示每个字符。比如，图 L 2 中给出了 hello . c 程序的 ASCII 犮小 

hdlo . c 程序是以字 W 序列的方式储存在文件中的。每个字节都有一个整数值，对应于某个字符。 
例如，第一个字节的整数值是35,它对应的就是字符“ #' 第二个字节整数值为105,它对应的字符 



.3 helci.c 的 ASCII 文本 S 承 

IwIIm 时表 6 方法说 !l 了一个笔本的思坊 = 系扭中有 M 佶总包栝磁 Si 件、 存储器中 的朽 

序1 打站 器中# S 的爪广钛裾以及 M 络上传送的&据> 柿£ 由一 NHt 軲农不 的* K 分不_教抿对象 rfi 

惟_://法: fc 我们 il 到的据对飨时的 tT 文，比; UU 在不同的上 卜文 t, N 垆的字，平列(1丁_驶¥ 
_个犄数-浮点 fti 宇符串或#机器疳令* 

ft 为我们名 i 了 il 数字肘机 器灰 不方式，囚为它们匈常嵬的整败 和实 ft 甩不冋的，它们 

仿 这：. a 相似并不为人所知 * 达力细的墓本胤现将存® 1;屮评细裱述， 




每 fr 文本柿珐以一个# ■不此 的換仃符“\^来鸽耜的.它所对迎的咿致姐 
m 隊 httlfHiiS 样只由 Asa! 字符构成酌文 叶称力 文农*^#,断相戽他 It 件则#为二进則丈神# 


c 

C 讲 T 是只尔浃*畫的 

MitiQrial S ㈣ mis Iiud&K) AMSI). 1M9 年«有7 


年 - iW 3 年 W ® 建的 4 美.国本标准 ftJlIW 

『1：的标准4该标 ？ titiUC 

讲言和 一系獅 A 餃 A ., 的 C 杯准車 t femi hall 和 Riitttc 在他们众所用知的经类篆作 a ； 

[40]中 搞遂了 ANSIC . RJttiic CA u 古*有峡 ffi 的，伹 R 时 I 怎一个 大岭 成功' 

玲# 是成功 的嗶？ 


Hiizhk 乎 
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• C 与关革密切， C 从 f Itlfc 是传为一钟獨于的在序法 t 矛成 ifc 来的. 

Unk 内 4( 的丈都分1 «及所 有它支持的工 具和*41床 噼是螂 C* 言梅写 W. MitfcTO 导代 
g 期 W 年代卑軋1^風軒于离等*杈， 件多人## tttbc 』也上了 C , 玲山 k 几 
乎金却是 fll C 鹹骂蛑乇*«■叫 MiUWIttH 斬的权 S 上,述种 特戒为 C 和 Uni S 義来了 

t#. 

• c 是一 个+布 Wj 单的 •嘗. c *t 的谈卄是由人希你一个儋裔 f 拉 的， 其蛄羲訧是这 
是一个 S 洁明 T h 溧有什 AKf«4 奸 

if f 及其棹准 4. A 全半不 iUftn W T c^r 的 W 螓使 t 栩对而言*也*子4植到 
不 Art 针算枚上， 1 I t ,, ( ‘ 

• C 是为表 HS 45设 妗的. C 是设计凡来实现 Unis 操作乘 it 的. 在表，其他人发瑰 ft 够用这 H 

碍迠路写撤#]想養砷赛序 ■ 

C A 言是#棘级鷂找的曾逸，两时它4非 fifjfl 于皮研 tt 往寿的 编写. 魃為, t 也用于所 
有的枉滲 | 和 m 的请乳， C 的相针是选*祖恚和祖4鎌说的一个當充靡因 

有用抽象的I式東持，例釦鮝 fc 时象扣 针叶 £ MU 粗冬 W C++ 扣 Java 等析的祖年诱畜解决: T 
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1-2 程序披其他程序翻译成不同的格式 


dikft 序生命用_的一开始时:•个商线亡相伴，閃九气处干这种彩^时，圮趄能够被 ji 

c 讲句珥必嫌被 s ■鉋片序羚化为一 f 列的低 


® 懼的. 然而， 为了在 1* 上运 fjhalk ^ ii 序 ■毎 

级机界 ilt 栩令. R 后这曳■令接 M — 戸律为可枚行 日择 私序 CfKfcuLihk n ^ iHiprDgwtt ) 納格式 
汀奸包.井以一 进制磁 a 文#的形式存放起朱 


11 Ff (H 称为可执卜 日枯丈件 《 enMutable Dbjcn 


fUc > 


m I ：， 決 ff 兖件到 I 相 ifr 的传化是 屮被 译 甚雔 动葙净 （ ra _ cr drtm ) 細时 


^ nix ? qcc -q heilo htllo 
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作这 I . _gpc ■译 ftfT 动稃序 瑰取 ijftf 序文件 lw ]〗 d 炸把它成一个吋执行 Ufi 丈件 tetlo 

这个 #i 评畴过桴«：分 jiw 个阶段充成的 P jpffl 1.3 所不■执行这四个阶段的 ft 序（琿坎 a, * 法; a 
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比如 》 ic ]! o.c 中布 一 仃的 ttridirfs 令齊诉 ffl 处 l | S 读取_统失 J ; 件的内： S 、 

井巧它 ft 挂榷入 He 序文本中去■蛄圯铒得男了 3 _十 1 


c sif . mmAmxmr * 




迆中 rtm mm [成1)梆文本文件 Kctb . i 闔痒成寬本文 tthdb ^， 它包含一个;[»谏言租 

汇编® tw 中中的毎条语旬瓣以一 准的文本格式鷂坊地描述 r 

令*竹:左 Il f 有用 的. S 为它为不时 ffligiSS 的不间编评器丧佴了通埒的曠出皤言 

c 编译播瓣译器户龙的 桷出 文件用的都是 

叶 a . 读卜* ■ 汇编器（此】将 
叫放可 t 定住（如 


条佃«机器讲 s 梅 


• 拃的汇 

译成机 si # 耷指令， 把这些 m 令打包成为 一# 

» s 标《序的格式，切中 


imus 


hd ] o _。 

文#屬一个二进钊文件，它醉鶴_令可不足字符，_*我 1]砟4：本_»|| 

中打 件， 埃现的#愚-雎乱码 ■ 

賊紙 _社息， 我们的 荐序调用了 prtnrfSft , 它《#准 C 4 t 的一个违數，5 

令 C 鳴讳器 i 拥供， 涵数# 在 f _ 个名为 printfi 的电 El 的 ffi 编译_ 标文袢 中. 

文件必須以1种方式幷入到数们的 hellos 啕序中 


而这个 

mm < Ld > 畎负??处诗 g 种并入■眭采 
说柯到 hcDo 文件，士拯_个可执行 ff 衧丈件【或者 難为 可执行丈件>,可执行文作加栽到 
frfittlfi . 由负 f 执厅。 










旁 gnu 项目 


是 GNiriNoiUnk 的蜀写）項 3 升； tit 象的僉 1 有網 工具之 
Ricfc_J Stdl _ 发起岭一个 免髯 的鼉县4 

定螫鈞 « U 咖妗枣 St ，4 墀代感 H 蜱系夔 rtl 制* ^誠修致和传播， Ii 20 as+ H 
A -+ Unu 操作 *€ 的所有主要部#构炎的坏德 

坫 EMACS 螓眸 ff 
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GMU 項日已&复 t 成 
饵忾 tt 除外. 内核是由 Ujsua 礪 Htt 立发展 而表 
OCCIfc^®，GDB 蜩 斌霹. 汇编饑 搞器、 处®二进 H 文件 


GNU 林得了非摘猜 3 但是却 ftitfc 略，笔代■教料 ㈣ iAK^Uim 

3的*想起源 ; |(JNU 


m &- 

^ -fffrt Etet ipppcli ) 
而且 3 LIom 的 * r 4 度在很大 Si 上 


寸舍由 ft 件念__〖也坎的_为 
4 T 之鼂，而尊免 f 啤翊 tfiwb « T > 中 - jtf 之 t . 1 

述要妇功亍 GNU 工异，它们 frLim 5 iA _ :提供了琛逯 ■ 
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了解编译系统0何工作是大有益处的 
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计算机系统漫游 


个系统中也不疼相同。比如 ， bifclPentium 系统的字长为 4 字节 T 而服务器类的系统，例如 IntelItaniums 

和高端的 Sim 公司的 SPARCS 的字长为 8 字节 & 用于汽车和工业中的嵌入式控制器之类较小的系统的 
字长柱 柱只有1或2字节 & 为了便于描述，我们假设字长为4字节，并且假设总线一次只传1个字 D 

I / O 设备 

I/O (输入出）设备是系统与外界的联系通道。我们的示例系统包括四个 I/O 设备： 作为用户 
输入的键盘和鼠标，作为用户输出的显示器，以及用于长期#储数据和程序的磁盘驱动器（简单地说 
就是磁盘)。最开始，可执行程序 hello 就放在磁盘上。 

每个 I / O 设备都是通过一个控制器或适配器与 I / O 总线连接起来的。控制器和适配器之间的区别 
主要在于它们的组成方式。控制器是 I / O 设备本身中或是系统的主印制电路板（通常被称做主板）上 
的芯片组，而适配器则是一块插在主板插槽上的卡，无论如何，它们的功能都是在 V 0 总线和 U 0 设 

备之间传递信息。 

第 6 章会更多地说明磁盘之类的 I/O 设备是如何 X 作的。在第 11 章中，你将学习如何在应用程 
序中利用 Unix I/O 接口访问设备我们尤其关注特别有趣的网络类设备，不过这些技术也适用于其 
他设备 t 


主存 


主存是一个临时存储设备，在处理器执行程序时，它被用来存放程序和程序处理的数据。物理上 
来说，主存是由一组 DRAM (动态随机存取存储器）芯片组成的。逻辑上来说 t 存储蕻是由一个线 
性的字节数组组成的，每个字节都有自己惟一的地址（数组索引），这些地址是从零开始的。一般來 
说，组成程序的每条机器指令都由不定置的字节构成。与 C 程序变置相对应的数据项的大小是根据 
类型变化的，比如，在运行 Linux 的 Intel 机器上， short 类型的数据需要2字节 dnt 、 float 和 krng 类 

型则需要4字节，而 double 类型需要8字节， 

第6章具体说明存储技术，比如 D _ 是如何工作的，以及它们又是如何组合起来构成主存的。 


处理器 

中央处瑝单元 （ CPU ) 简称处理器，是解释（或 执行〉 存储在主存中指令的引擎。处理器的核心 
是一个被称为程序计数器 （ PC ) 的字长大小的存储设备（或寄存 器〉。 在任何一个时间点上， PC 都 
指向主存中的某条机器语言指令（:内含其地址)。 1 

从系统通电开始，直到系统断电，处理器一直在不假思索地重复执行相同的基本任务：从程序计 
数器 （ PC ) 指向的存储器处读取指令，解释指令中的位，执行指令指示的简单棟作，然后更新程序 
计数器指向下一条指令，而这条指令并不一定在存储器中和刚刚执行的指令相邻。 

这样的简单操作的数目并不多，它们在主存、寄存器文件 （register file ) 和算术逻辑单元 （ ALU ) 

之间循环。寄存器文件是一个小的存储设备，由一些字长大小的寄存器组成，这些寄存器每个都有惟 
一的名字。 ALU 计算新的数据和地址值。下面是一些简单操作的例子， CPU 在指令的要求下可能会 
执行这些操作。 


加栽： 从主存拷贝一个字节或者一个字到寄存器，覆盖寄存器原来的内容 6 

存储 ； 从寄存器拷贝一个宇节或者■■个字到主存的某个位置，覆盖这个位1上原来的内容。 


1 pc 也普 遑地被 用来作为个人计算机的编写 a 然而，两者之间的区别应该可以很淸楚地从上下文中 f 出来 
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^A2 执行 hello 程序 
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1.6 形成层次结构的存储设备 
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II 


寄存器文件就是 U 的高速缓存，而 L 1 又是 L 2 的高速缓存， L 2 是主存的高速缓存，主存是磁盘的 

高速缓存。在某些带分布式文件系统的网络系统中，本地磁盘就是其他系统中磁盘1:被存储数据的髙 
速缓存 U 
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1,9 一个存储器层次樓型的示例 

就像程序员可以运用 L 1 和 L 2 的知识来提高程序性能-样， 程序员 同样可以利用对整个存储器 
层次模型的理解来提高程序 性能。 第6章将更详细地讨论这个问题。 




1.7 操作系统管理硬件 


让我们回到 belle 程序的例子□当 shell 加载和运行 hello 程序时，当 hello 程序输出自己的消息时, 
程序没有直接访问键盘、显示器、磁盘或者主存储器。取而代之的是，它们依靠操作 系统提 供的服务。 
我们可以把操作系统看成是应用程序和硬件之间插入的一层软件，如图 U 0 所示 & 所有应用程序对 
硬件的操作尝试都必须通过搡作系统。 


应用程序 


软件 


操作系统 


i 存 


处理器 


I / O 设备 


硬件 


图 L 10 计算机系统的分层视图 

操作系统有两个基本 功能： 防止硬件被失控的应用程序滥用：在控制复杂而又通常广泛不同的低 
级硬件设备方面 T 为应用程序提供简卑一致的方法。 操 作系统通过图 1.11 中显示的几个基本的抽象 
概念（进 程、虚拟存储器和 文件） 实现这两个功能 . 如图 1.11 所示，文件是对 I / O 设备的抽象表示， 
虚拟存储器是对主存和磁盘 I / O 设备的抽象表示，进程则是对处理器、主存和1/0设备的抽象表示。 
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我们 构依 次讨论啪种袖 


1 . 7 . 1 进程 
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像在独占地使用硬件。我们称之为并发运行，实际上是说一个进程的指令和另一个进程的指令是交错 
执行的。操作系统实现这种交错执行的机制称为上下文切换 Ccontext switching ) , 

探作系统保存进程运行所需的所有状态信息，这种状态，也就是上下文 ( context ), 包括许多信 
息，比如 PC 和寄存器文件的当前值，以及主存的内容。在任何一个时刻，系统上都只有一个进程正 
在运行。当操作系统决定从当前进程转移控制权到某个新进程时，它就会进行上下文切换，即保存当 
前迸程的上下文、恢复新进程的上下文，然后将控制权转移到新进程6新进程就会从它上次停止的地 
方开始。图 U 2 展示了我们的示例 hello 运行的基本场景。 

在我们的示例场景中有两个同时运行的 进程： shell 进程和 hello 进程。最开始，只有 shell 进程在 
运行，等待命令行丄的输入。当我们让它运行 hello 程序时， shell 通过调用一个专门的 S 数，即系统 
调用，来执行我们的请求，系统调用会将控制权传递给操作系统。操作系统保存 shdl 进程的上 F 文, 
创建一个新的 hdb 进程及其上 F 文，然后将控制权传给新的 hello 进程。在 hello 进程终止后，操作 

系统恢复 shell 进程的上下文，并将控制权传回给它，它会继续等待 T 一命令行输入。 


Shell 

进程 


hello 


进程 


时间 


应用程序代码 
»作系统代码 

应用 Sff 代码 
搡作系 统代码 
应用程序代码 


上下文切换 


上 f 文切換 


图 1 J 2 进程的上下文切换 

实现进程这个抽象概念需要低级硬件和操作系统软件的紧密合作。我们将在第8章中揭示这是如 
何工作的，以及应用程序是如何创建和控制它们的进 程的。 

进程这个抽象概念还暗示着由于不同的进程交错执行，打乱了时间的概念，使得程序员很难获得 
运行时间的准确和可重复测量 。第 9章讨论了现代系统中的各种时间概念，并推述了用来获得准确测 
量值的技术。 

1.7.2 线程 

尽管通常我们认为一个进程只有单一的控制流，但是在现代系统中，一个进程实际上可以由多个 

称为线程的执行单元组成，每个线程都运行在进程的上下文中，并共享同样的代码和全局数据，由于 

网络服务器中对并行处理的要求，线程成为越来越重要的编程模型，因为多线程之间比多进程之间更 

容易共享数据，也因为线程一般都比进程更高效在第13章中，你将学习到并行的基本概念，也包 
括线程化的概念。 

1.7.3 虚拟存储器 

虚拟存储器是一个抽象概念，它为每个进程提供了 一个假象，好像每个进程都在独占地使用主存。 
每个进程看到的存储器都是一致的，称之 为虚拟地址空 间^图 1 J 3 所示的是 Linux 进程的虚拟地址 
空间（其他 Unix 系统的设计也与此类似)。在 Linux 中， 最 上面的四分之一的地址空间是预留给操作 
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速缓存。第 K1 章将解释它如何工作，以及它为什么对现代系统的运行如 此重要 


1 ' 7 , 4 文件 

文件 只不过 就是字V』字列 。 每个 I/O 设备，包括磁盘、键盘、显小•器 t 袢至 f 网络，都 nj ■以被 
看成是文件。系统中的所有输入输出都是通过使用称为 L T nkI /0 的 -小组系统病数调 Hi 读写文件来 
实现的。 


文件这个 简申时 精致的概念是非常强大的， fel 为它使得应用程序能够统一地看柃系 统中吋 能食有 
的所有各式各扦的 I/O 设备。例如，处珉磁盘文件内容的应用程 序员可 以非常幸福地尤志了解 It. 体的 
磁盘技术。进-步说 t 同…个程序 nU：U 十使甲不同磁盘技术的不同系统 L 运行。你将介第！]章屮学 


习 U^x 1/0 


旁注： Limix 项目 

1991年8月，一个名为 Linus Torvalds 的芬兰研究生谨慎地发布了一个漸的类 Unix 的採作系洗 


内核 


来自 ； torvalds @ kiaava.Helsinki .FI (Linus Benedict Tbrvalds ) 

新闻组： comp . oa,minix 

主题 f 在 minix _你最想看到什么？ 

搞要： 关于我的析搮作系統的小调臺 

时间： 1991 年8月25日20:57:08 GMI 

每个使用 minix 的朋友，你们好 - 

我正在做一个（免 f 的）用在386 U 86) AT 上的株作系统（只是业余爱好，它不会像 GNU 那 
样庞大和专 iU , 这个想法自从4月份就开始 K 酿.我希望得到各住对 minh 喜欢和不满的反積意见， 
因为我的揀作系统在某些方面是棋仿它的[其中包括相同的丈件系洗的物》设计（因为某些实际的原 


)] 


我现在已经移植了 bash < 1.08) 和 gpc ( 1,40 X 并且看上去能运行.这意味着我需要几个月的时 

间来让它交得更实用一些，并且，我想要知道大多數人想要的恃性 t 欢迎任何建议，忸是我无法保证 
我能实现他们 .：-) 

Linus ( toiyalds @{ cmunaJ ) ebiiiki . fi ) 

接下来的，如他们所说，就成为了历史. Urax 逐漸发展成为一个技术和丈化现象.道过和 GNU 
項0的力壹结合， Linux 項目发展成为了一个完整的、符合 Posix 标准的 Unix 操作系洗的版本，包括 
内核和所有支撑的基础设施 • 从手持设备到大型计算扭 Liim 在范围如此广泛的计算机上得到了应 
用 . IBM 的一个工作组甚至把 Linux 移植到了 一块手表中！ 


1.8 利用网络系统和其他系统通信 


系统漫游行之至此，我们一 K 是把系统视为…个孤立的硬件和软件的集合体。实 h 上，观代系统 
处常是通过网络和其他系统连接到-起的，从-个申.独的系统来看，网络4被视为又-个 I / O 设备， 
如图 U 4 所氺。3系统从 t 存拷贝一串字 符到网 络适配器时，数据流经过网络到达另-台机器，而 
不是到达本地磁盘驱动器，相似地，系统可以读取从其他机器发送来的数据，并把数据拷贝到自 cl 的 
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1.9 下一步 

我们旋风式的系统漫游到此就结束了。从这次讨论中要得出一个很重要的观点，那就是系统不仅 
汉只是硬件 a 系统是互相交织的硬件和系统软件的集合体，它们必须共同协作以达到运行应用程序的 
最终0的。本书的余 F 部分将对这个论点进行展开。 


1,10小结 

计算机系统是由硬件和系统软件组成的 f 它们共同协作以运行应用 稈序。 计算机内部的信息被表 
¥为-组组的位，它们依据不同的上下文又有不同的解释方式 b 程序被其他程序翻译成不同的形式, 
开始时是 Ascn 文本，然后被编译器和链接器翻译成二进制可执行文^ 

处理器读取并解释存放在主存里的二进制指令 。 因为计算机花费了大 鼉的时 间在存储器、 I / O 设 
备和 cpu 寄存器之 N 拷贝数据，所以系统屮的冇储设备就被按层次排列， cpu 寄存器在顶部，接蓍 
是多层的硬件高速缓存存储器、 DRAM 主存储器和磁盘存储器。在层次模型中位于更髙层的存储设 
备比低层的存储设备要快，单位比特造价也更髙\程序员通过理解和运用这种存储层次结构的知识， 
可以优化他们 C 程序的性能。 

操作系统内核是应用程序和硬件之间的媒介，它提供三个基本的抽象 概念： 文件是对 I / O 设备的 
抽象概念；虡拟存储器是对主存和磁盘的抽象概念：进程是处理器、主存和 I / O 设备的抽象概念。 

最后，网络提供了计算机系统之间通信的手段。从某个系统的角度来看，网络就是一种 I / O 设备。 

参考文献说明 

Ritchie 写: f 关于早期 C 和 Unix 的有趣的第一手资料 [63 , 64 ]。 Ritchie 和 Thompson 提供了最早 
出版的 Unix 资料[65 ]。 Silbetschatz 和 Gavin [70] 提供了关于 Unix 不同版本的详尽历史 & GNU 
( www . gnu . org ) 和 Linux ( www . linux , oig ) 网页有大量的当前和历史信息 & 不幸的是，无法在线获得 
Posix 标准，必须通过 IEEE ( stendards4eee . org ) 定购^ 
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2 章 


视代计算机#储和处 理以二 值信号表小的信息。这些普通的二进制数字.或者位 （ bit )， 形成 
了数字革命的基础。大家熟悉的使用了 1000多年的十进制（以十为基数， base -10) 起源 T 印度， 

在12世纪被阿拉伯数学家所改进，并在〗3世纪被意人利数学家 LwnardoPisatu) (更有名的叫法是 
Fibonacci) 带到西方。使用 t 进制表示法对于冇I■个指头的人类来说是很自然的事情，但是当构造 
存储和处理信息的机器时，二进制值工作得更好。二值信号能够很容易地表小、存储和传输，例如， 
可以表+为穿扎卡片1：有洞或无洞、导线上的高电压或低电压，或者磁场引起的顺时针或逆时针。 

S 于一值信号的存储和执行计算的电子电路非常简单和可靠，使得制造商能够在一个单独的硅片上 
集成百万个这样的电路。 

单独地來说，单个的位不是非常有用，然而，当我们把位组合在一起，再加 .L 某种解释 
Cinterpretation.) ,即给 f 不同的可能位模式以含意，我们就能够表示仟何冇限集合的元素。比如，使 
用一 个一进 制数字系统，我们能够用位组来编码亦负数，通过使用标准的字符码，我们能 够对份 
文档屮的字母和符号进行编码。在本章中，我们将讨论这两种编码，以及表示负数的编码利近似实 
数的编码。 

我们考虑二种最重要的数字编码 D 无符号 （ unsigned) 编码是基丁传统的二进制表小法的，表 
示大 f 或者等丁零的数字。二进制补码 （twoYcomplemem) 编码是表示有符号整数的最常见的 力式， 
有符号整数就是为正或者为负的数字 6 浮点数 （ floating-point) 编码是表示实数的科学记数法的 4 

二为基数的版本。计算机用这 些不冋 的表小方法实现算术运算，例如加法和乘法，类似于相应的粮 
数和实数运算。 

计算机的表小法用有限的位数来对一个数字编码.因此，3结果太人以至不能表 不时， 某些运 
算就 会溢出 ( overflow ), 这会导致某些令人吃惊的后果。例如，在大多数今大的计算机卜.， 汁算表 
达式 M0100M00300 会得出 -SS4901 SS8。 这违背了笹数运算 的属件 ——计算一 组十数 的乘积产生 
了一个为负的结果。 

»方面，整数的计算机运算满足了真正整数运算的许多普通的属性。例如，乘法是吋结合的 
和吋交换的，这 样-來 计算卜 面任何 外 C 杈达式，都会得出884 901 888 ： 

I500*40J)* 1300*^00) 

[ (500*430)^300)*200 
■； (20D*b00)*300)^40D 
400*(200*(300*500)) 

计算机可能没有产生这个预期的结果，但是至少它是致的！ 

浮点运算有完全不冋的数学属性。虽然溢出会产生特殊的值+«，似是 一 组正数的乘积总是 IK 的。 

另一 方面， 由丁■表示的精度有限 f 浮点运算是不可结合的。例如，在大多数机器 h, C 表达式 
(3.14+1e20) _le20 求得的值会是0.0,而 114+ Cle20-le20) 求得的值会是3.14。 

通过研究实际数字的表不，我们能够了解可以雇孓的值的范围和不问算术运算的属性.对于编 
写在全部数值范围内都能正确工作，而卫可以跨越+ :司机器、操作系统和编译器组合的町移植的程 
序来说，这种了解是非常重 要的， 

讣算机用几种不同的…进制表‘来编码数值.在第3章 中随着 你进入机器级编程，你将耑要熟 
悉这些表示方式。在本章中，我们推述这些编码，并给你一些关于数字表示的推理练习。 

通过直接操作位级的数字表不*我们得到了 JI 种进行算术运算的方式。理解这些技术对于理解 




息岭太示和 


«谛算术 M 武时产生 ft 机器级 代码是 很 ti 的 

ftfrj 对这每内教的处理慝雅 f 精 确的. 我鈞 从缠 嫣的*本定文开始 r 坊后得出 一荦 埘件 
可表 乐的 数宇的他困.它们的桡银表示以及算术以箅的〖4性，我 m 柑佑从这#一个抽象的1点宋分 
析这些内尊 ， 对 诈來说 ft 徇1©的， h 为 w 序 Bi ® 好奸翼机运 算柘更 为人熟悉_«»和实歡拓 霣 
之 N 的关系 w 车脱湘 an , 尽 w 这看起 长《吓人，仿_确的处 a 只了 Hi 本的代数知识 
逑议你将味习 II 作为巩阐公武和一些实 fe 生括 h 于之间联系的一幹 方法， 


例釦 


我们 


旁注 ■ * 祥阋 n.v 


■^策 甘寬得爷夂和4式今人 4 Jti 革 JHit # 碍体学 JJ 表 f 峙内容 [ 为了尤 
糾的教学槭念的推但是翊诸选在忾客的羡奸才法是在你 首武闻 读时薦过这癦尊身 ■. 相反 

* 成一磨轉羊的示例（比知 


■ 我们提《全 


VM 




1来建 i . wit , 牴后 t 着歎学#鲁是如何巩通译的 t 聿的 


冰1:.1 


C ++ SH ® S [ 4 t 立在 C 之 fc ， 住用完全相 R 的杜宇在小-和运 黧， 在本 f 中关于 C 的听办■内 鄆対 

C +# B 冇效， H —方 [ ffl . 知 v fl » 畜创适了 一 套屬的数乎农承和埝算标准 

实晚方式，而 Java 柝准 fl: 数铟的搽式扣《丹上£谗细 1M 礴的.在本孝中奸凡个迪方我 |jffi 突出了 
Jflva 支待的表桥和运算， 


C & 准被浼计为允扦多产 


2.1 信 g 存储 

大多 )1 机使用 s 位时 块， 或叫 ft 字笮 % ic ) p 來作为最小时可4址的存 《 s 苹位， Mi 不赶 

W ■问存钝诮中申_1的位，枳曲绂相序将# «K 祝为一个非 f 人_乎 节数组 * _为1軔4麴》 < Y \ m ^\ 

TtHlKNy、 存 fcfi 器时悔个芋节柿 由一个 悱一的数宇乘按识.称为它的地 it UddlCSil. 断有可能地 lh 

的圯舍就称为虚拟地蚨玄间 Virtual aAlmisphCEh 正如它的名字肩明的.这个疃枳退址宁问只姑 

—个湘»给 flUM 趿再序的權念性最嫌 Cimigc)* 实師的蜇现<£悉10负）使玛_是随机访闷存味雅 

_、磁 a 存储1特殊眹件和蝶作采统软 Mr# 結含， * 办騙字徙供一个 i 上去统■的宇节数《^ 

«译晷利运 厅时 东统的一个在务釐趕_这个#味器 仝间划 升为£崎竹理的_元，來存敢不闸的 
也寿对象 ( pm^jn dtifKt ), iltg ：* mWi ^, 梅令扣柃 制愤兑 

理跑序不间 ffl 分的存〗»■这神軻*完 t 是布虚 ft 地 1* 空间1完成的■铒 I C 中一个指计的值（玄 

ife 它指问。个*!1^ 一个结坤或是某 tttfe 梓序听 jt ) 都是 慝个#鲭块的第一个甲节的 Jffi 地啟， 

c 编评器还粑辦个指针和类 榮倍 总联 mk , 这枰它就町以 》«ffi 钭佾的类型.变成不 h 的机》线 

代码来 访问存 SB 在报针所指向钲1 处的 值，解 f C 峒 If 雅伟护1这个类费 du iBft 它生庄的实阳 

七 IS 组杵序井没有关于 t 据类窀时储£+它恂负地把 s 个程序对 象视为 一个宇，块 h 而帱挥序本刼 
养1 一个乎节 序列. 

。谦庸|»攀«^。争摘针衡1|色 

祁针是 c 的一个 t 要神# + 1 极打 用舭槐 i* 杓的元素 （ai§ 教 is) 的权* l 就像 

择钟也有 《 个方*」宅的毺扣它的美 s, 它的傖表孕的是某个对象的(*置> 兩它的# 负表 示厚 
1上吋冉倚时私的戛 si (比如， fr 救或考爭 . a * j t 


有&种 iLWpjyt 用来分 M 利货 




个寰量 
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第 2 聿 


2-1.1 十六进制表示法 

…个字节包拈8位。在二进制表小法中，它的值域是 oooooooo 2 〜imim 2& 如果看成十进制 
整数 f 它的值域就是〜255^两祌符号表示法对于描述位模式朿说都不是非常方便 s _进制表 
示法太冗艮， Ifi] 使用十进制表示法，4位模式的互相转化很麻烦。替代的方法是，我们以16为基数 t 


或者叫做十 六进制 （hexadecimal) 数，来书写位模式。 十 六进制（简写为 “Hex”） 使用数字 “0，， 
“9' 以及字符“ A 


F” 来表小16个可能的值，图 2.1 展小 f 16个十六进制数字对应的十进 
制值和一进制值。用|六进制彳 S 写， 一 个字节的取值范围为 OOm ^FF^ 

在 C 中，以 Ox 或 0X 开头的数宇常量被认为是十六进制的值。字符 “A 
写， 也可以是小写。例如，我们可以将数字 FAlD37B ]e 写作 OXFA1D37B , 或者 0 xfa ] d 37 b , 甚至是 
大小写混合，比如， OKFalD37bo 在本书中，我们将使用 C 表示法来表小十六进制值。 


F ff 既可以是大 




十六进制数字 


t 进制屯 


.进制直 


2.1 十六进制表示法 


W 个 1_ A 进制数字都对 16 个值屮的-个进行了 编码。 

编写机器级程序的一个常见任务就是手工地在位模式的十进制、：：进制和十六进制表#之间转 

换，二进制和十六进制之间的转換是简争 ft 接的，因为可以一次执行--个十六进制数字的转换。数 

字的转换可以参考图 2.1 所示的表。在你脑中做转换的一个简单的窍门是，记住卜六进制数字 A、C 

和 F 相应的十进制值。而对于 把十六 进制值 B 、 D 和 E 翻译成十进制值，则町以通过计算它们与前 
=个值的相对关系来完成。 

比如，假设给你一个数字 0 xl 73 A 4 C 可以通 U 展开每个十六进制数字，将它转换为一进制格 
式，如下所示 r 

十六进制 


1 


A 


C 


□001 0111 0011 1010 0100 110D 


这样就给出了二进制表示 ⑽ lomooi 1101001001 loo 。 

反过来，如果给定个■进制数字 1 U 1001010110110110011， 你耐以通过 g 先把它分割为每四 
位一组，来把它转换为十六进制。不过要注意，如果位总数不是四的倍数，最左边的 一组吋 以少于 
四位，前面用零补足 □ 然后将每个四位组转换为相应的十六进制 数字： 

1100 101C 1101 1011 0011 


进制 


11 


i •六 进制 


C 


A 


B 







甘4 ■的表示和 k 斤 


25 


壤习 fil 2 J 

11 ™ 

宄成下*的极字帏枝； 

A ■将 Ch 8 P 7 A 93 - 牯瘦为二进 +L 

L 典二迸 w ifliioii ] ioomm 特鵪於十*进制 ■ 

C . 轉枷 C 4 E 5 D 岭換为二进+|， 

D . 将二进刻 3 P ][ HKH 剛 miiflftlio 籽换为十六速刮_ 

^ 1也|&2 的幕 时，也就是 h 对卜某今厚_ jn «2\ mrmm&mx^ 卜 a 进韧彤式，只 

要 fl 隹 •¥ 的二嫌劁袭泰是1后 ftl 用 J 1 个零.十力嫌镧敵宇0代表四个 Z 難所以,对 f 被 H 
成 ( HZ 形式的 n 来设 《■ 其中 fly 視 fl ] w 以成开头的十六进制数字为1 {^ y H 2 ( M >. 

4 iMi < l =3) r 后面用1»糖』个十六进韌的 0* 比 ftL x =2 W ^2", 翟耵冇 n = 

从而得到卜六进制*孑 0 x 800. 

填写 TA 中的空&、给 tfs 2 的不科史革 H ? 二 kj 剩和十六进 w 艮示： 

浐" • hip I s * i - hfttt * n 


t = 3 + 4 3 】_ 


n 


I] 




m 


Si « 


4 


1 A 


^ 刊和十六进制表承之间的衿換窬》使用乘法或 t 除法束处理- .1 情 R 
J 转换为 十六进*1，禺们时以 SJI 地用16 


一 个十进斟数宇 

ft 到一个命分和■今余也就+ 

然负，战们叩十六进制表示枘^作为■低位数宇 T 并£瑪过对#反复 ft 行这个 过科得到剽 " F 的 
数宇,例如 『 考睇十进制314156的转 ft : 


jtk 


r * 


314 


4 i&t 12 < C > 

L 337 - 16 + 2 
76 - Ifif 11 

4 嗶 + i 念 

CM “ + 

从 11, 我们 It ® 出十六进泡灰豕为 fkACBK , 

反过来I将一个十六埴朗 fit 转换为+通制 H 宇 r 我们 HJ 以用相应的 W 的 W# 以每 t t-Al 制 
ift 乎* tt 如 ■ ^ taf p m t 算它对应的十 a _讯为 ? ^ 

+ IS » 1792+ J 6( i + ll^a ]%?, 


m： 


4 


(2) 


227 


76 


( C ) 


4 


⑷ 


< 


+ 10- lfi + 15 = 7 - 256# 1.0-}« 
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mnm s j 

一 个字贫 i 「 tt : 被灰乐为殉脊十 六边劁 欹字.填 S 下 表卡蚨失 的礓 ， 给出不句字笮模式竹十进制、 

- Mibtwmii ； 


旁 ii , 十进 制和十 九进«间的》» 1 

泠 了在十 itw 扣十去进制之匆梓提 帙起的 榖嫿，最 ffitit 计算取滅者计 糞霹氣 氅成这相 J： 作 
例如， 下面妁 hi 进言 w 本将一刊數字从十进制時捵为十#进_I 






J /wt /Iocs L/falui/perl 
3 # Conv&rt. list Qf d#€inat nuAsIb^rn into heH 


1 


4 f&r ($i = 0? $1 c fASCVf $1++J ( 

5 crinLSC p Sd \ t * Oiel ^ n % $ 


I 


ISi]- SMKVt$l]]iJ 






— Sit + 文件被敗 I 为 f 执行的，又 v : 

in \ ix > iPO 5 加 751 

会产生 * frlfct 

；1 DD k 0 x 64 

5 D 0= QKlf 4 

栢似砘.下*的 _ 本拚十 A 进楼为十迷軔: 




! /uer/laeal/tii ri/pexl s V 

Convert list of hm puftlwrp into 









f * 息的表 示和* U ! 


l:$i = D 』$4 < 珍 

Sval * 

prijitf CCiHlic ^ td\n， P $v&l ri Svil) 


Vi ? i* + J 




辣习 《 a ^ Yi 

不碑歧 字转■狭为十进剩或者二进 ift 试着等答下 典的算 答衆要肩十6速麟表示 

只要修成你执行十4_扣法和4 法断仗 两妁方法 ，以 iti 为暴教. 

A . 0 x 503^*0618^ 

B . 0 h 502 c ~ CK 30* 

C . fojOlC-lHgdlE 

€K 0 sJOik ~ ^0 2c n 


提示 


2 . 12 字 


计界机 fii 有一个字长 (^orf sticK 数埘術 ff fclg 的标霧大小 

为 A 拟地址迪以这样的字*编 码的， 所以字长决；£的最 if 的系统#取犹愚_拟地埴空何 的最大 
太+， t 就 进说.对子 一个？芪为 n 位的帆 a _ s , ««地 j * 的衔为 


( irnmina ! silt ) 


o-r - ]. w 序*客访扫 


2 H 宇节 


今天大多敷十 t 扒的 rK 柿是32位，这«明制 ysi 拟地址宇_为4 T 亮？节.《写作 
就 是说. 剛削 H 过 4 k I # 字节* i 然对大窭教应用而 h . 这个空网足 钵大了 1 但是现在已玲有许多 

大咖鮮難撼咖狀_#«$___, r ^ u&mmi 

2.1.3 數据大小 

汁龍讎评料腳剛 f 方武纖码«宇，从而支 ㈣ 钟数 
字栴式， ttftr . 咋多机 S 祁存 ftH 单个字节的坩令 • 也宵处 《* 本为 ( Hi 字竹 
# t 昀栉令『迹有曲指令支持表吊为 ra 卞节和 jv 宇竹的浮 点敢. 

c 女忡1数祈浮点数的 多神数 据格式 4 T 的数坩类取 cbflf 农示一个 V 独的字节_ J^(rdial 
这 t 名字颭山于它被用廉存储文 I 申中的单个竽符这一瓌竑而來的，衍它也 能被用 乘办緒餿数值 + 
t : ff ] S 钼类逭 irrt 之耵还(1|加 Lfef 词 tong 和曲加，掛供各神大小的_敵表示 

种 c 数挺类取分 fc 的宇 wit * 准 咦的宇 ft it 依 ft r 机器利 》 伴 》 ■我们 m 孝了两个有代表性的例 f E 
典#的 12 位机#和 Com ^ Alphi 体果结构，其中對对 J 5 J * 应用的 64 位机眯 ， 
m 32 Rmm 1 ■典免 0 的分 m 方式，吋以扇! 狯到， 

为:四字节，《长_粮致使厍机器的全字长. 

明12也说钢厂柑釺 C 例加，一个«声明为类镳为的耷*〕使用机辦的全 fK 
尥1?:器旺支扦两押不「与的浮点申式 = 单硝氓 t 在 e 中声明为 
这4格式分 SS 伸珂四字节却八宇节 * 


4 c ； n > 


pi ] 乎节減衣八宇 


2 . 2 冰承了为各 


k 


费«分] C 有网 Tt , 断■不 InfWftffjim 


大多 


5和双 W t <在 C 中声啕为 double ) 


IhT 











ft 申的 Mflittll 




D-hoirt ion 


2 


lung int 


char fc 


douMe 


i 


2-2 Ctf 苜中苺宇 KS 突型的大小（以亨节为拿位 3 


H 哀 l « it Sft 譽 


^ scmtwn 声明撕 tr 

对予_教#类型 T ■声胡 

t m Di 

表是一 个柑针 史量， 相初典 f / T 的 一 对. 


如 


P? 


tt 将一个指蝌声明为 ■ rtftdw 类戋__个对琴， 

W 序场皮该力用使* 们的轉 序由不「。]的 ilb 和編 i $ a 上可移 _■ 可移惟 ft 的 fmmm 
序 対不冋 « t 据类 f ! 的大 小不敏 «■ CIS 棣对不 Rft 据类翌的数宇范围设 w 了 T 界， 这点 在后曲 
拓将 in 累 | ■但5：籲役有上籌.因为32位扒 af d 过 ±- 2 o 年1 一 ft Mum , w 多埋序#_写_憂以围 
2.2 中# 美喷 ftlK 位机 IT 珂协的 I 分 H 1 M 0 J 瑕® 的. A 不久的物 3 fe P 釀着64位机 iiti * 越重聲, 

_S 珠租 上时. 许多 的肩宇 长的依》就会 i * 出来,成为祛误 ■ 比如，许多 

W 序0 to t —个辦明为如类翌的 S 序对 ft 柿被闬来存 lift — 个捋针 ■这存大炙教32 位的机 器 L 丄布 
|| :芘 ■ 俩1 A ： —台 Alpha 机 S 上維会谇致拘 ft t 




2 AA 寻址和宇节_序 

r 砼的 稅序对 fe . 我们必須迁立 叫个规 則 ： 这个对 t 的地址 I 什么利 strm : fr 掃雎中 

4 HM 对这些字 Dili 宇，迮几乎所有的机器!：,.多卞 I ?对象掏被作 储为连 埃的宁货序月，对象的地址力 

所仗用字节坪 | 时的地址 ■ 糾紅 ea —十类 a 为加的 tt ： i 的地址为 toiflo 
灰 iiiUx 的 BiAosioo . _ wi . 1 的 ? q 肀节枸存 tint 冇除器的 ( h_m 


说.地 i 


talflU ( HI 0 i 和0003位 Jt 

对表示一个对 f 的字书甲列#序， 有两 十通川的规鬭_ 寿 由一个 *4 i 的*数， 有 位桉咖 , 

和，岛]，其中 高有效 位._鞠1||〗6有法供^隹役的倩截， 这叫愧 _1被 

团麗低 W 9 卞节包 t 位 | i Ti ^^ 


^2 


分 fl ! 战匁 宇节. 其中圾苺有效卞节包含粒 h 

■ tt 他字节徂贪中吋的位， it ^ ULl 选存蛄器中 ffi 两从域慽有洛宇彳 i 釗最阉 w 效宇节的蚋序 
存赌时象.而 畀一钱 机器按呀从》卑有效宇节到域 长存效卞节 的晒序存砧 

有 ® 宇节在最》曲时方式»榫为』卜蟪法 c_ cDdkn 》*大 . 多数 ag 自以前的 
作逛 Cauipiq 公司酌一每分> mills, 以及 In^ 的枳 glffi^fflUW 幾后一坤彳（鉍商有鍾宇 


Vi ,， B 


-M 


r 






-mm —— m 


kgjEiiJ Equipritcni v 
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甘存 JBinfti 的方戍 3 被称兔大蟪法《 


emfiBiih IBM，M 袖 rob 和芑抑 lilierQ^sitiBs 的大多 ftiilit 

财陽 ㈣ 扎 ㈣ 咖邮^大嫌' 贿 _井_严 ㈣ JIM ㈣ 朗分 ■ tti ], IBM 
制造 W 个人 UlLtffl 的是 ln B | __的处埋器，因此 就是+ 瘸认 


■杆多微处理器芯片 ■ m Al ]^ 
和: M ^ nrola 的 PqwcftPC , ft VS 行由枉一和 4 式中 + 其 11 决于芯片 | p 电后坊 1 |确定的宇节暱序谀則, 

维编我们酡》« 示俠. ft 设耷嫌 1 类捌为 inu & J^Hh ■ I ! I 

w 234567 . uiitm 


有一个十六 a 制值为 


( h ]00 


flsi I ⑽的卞 t «序依瘢于机 S 的类蹙 ； 


_■ ■ ■ 


大繼 


DxlOp 


DxlDl 


0 K 1 D 2 


-had 
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5 


4 s ? 


中職 


Oxiao 


9 k 1 Q 1 


tfKim 


㈣ « 


€7 


41 


1 J 


01 


注 Jt 在字 0^1134567 中，高位竽节的十六迸射愤为 

令人吃 是仑适 的 a 个 h is 上， 

■■1响 crbdimi (小 箨”哀 A hi( endlBit C 大哦>，来自于 J 

其中2崩时两仑墀1无法献应》从《(- 

没有技米域因來选择字节》(邱规剿, 
治珀 ism 口角*对种乎节 鑕序的 选择是 #* 的， 


i + 而嵌位宇节值为 tow , 

人 11 *现鬌制 ww «. 嫌上 ， 

_ Swift 的 ■{ 格」 

—小期还最大《—打 ^ -fmmm 

因此争 化成为关 ftt * 政 


mt . 


snp 




记 CGiil ] iv « r h i 


* il ； 


n H 的 


_ 

ijiwi i 


I 


F_A 就是加『4 


Life 在 172* 年如坷 |fi 述大，小碥之争时.场史的 ± 

■ -•我下 ft 要音诉体_足， iMpA P BltfiiiCii 这崎; US 薦声过去 s tft 个 J 里 —JL 在普战， 

~-填 ，可 
因 此他峙 5£素，电 


成+开甿是由 t 以 ~ F 錡屏我釣大家都认为+ p 承麵的方 S * 是打破鸠簧较大时 

是 ii 今发+竹祖父小时蛾吃鴉番，一次鉍古法打瑋畏时 *1 巧禕〜个手推善破了 
衬的 tt 下了『道敕 +■ 命令金体戚氏吃鵪蛋时打破硃簧敕小的^鳩 
甿这翊命今极为反感，历史暑讶我 fn _ 由 At 发生过大武叛亂―其中一个蓃+遂了条 
■1 位. 埤#鐵乱大|打是 *1 Bfcfoscu 的 闵五大 象的 g 觀乱+息后*波亡妗人总是遽 f ! 那 
个帝田去寻教_芈_ il 你钟 k 先康凡次有一 A 鵝！量 ft 电不肯去打 破嶙资较小的一 

m irrfifc 过 n 本丈部著作，讀大虞 ㈣ 為-直是受 ㈣ ■ 法雜也楚定逾紙鈞任啊人 ; p 
得时/(狀♦文麯 a 苒上蒋釗烽法的你相_| 

在 ft #个 时代, Swift 是在慨蚌荚 IB ( LiHipu [ tfnUrlSi Bhfuiet » 之间持_的 冲突- ^ muy € 

一位 《 钵协汉的早期 f 喇.， 


逶+.者 老百 


痛于 


-泰 


次钱 A 达两+朮《■来捆代 f t 埔序〖17|, 攻喪述 十未 il ■: t 产速糗 


■ 


对I火多 教应用 相序 费來说 r 他 tnft 器的宇节 u 完争十:町見的 


„ 无论为哪 I •类型的机禰所 

fiH 伟）叩| 1 : : ㈣㈣ ，判 ㈣ 純 _• SMfli 不隨關机朋之 

關过 I 躺腿 二 * 8 瞒梅 - ft 眺 fi |* 1 制 I 關柿 Ki £ i ] A ■馳机 搜減 






J;^^r r , ■ r i 1 F* ■■ l B" jB j^BMi ■ BlMjiT ■ 1 a u ^ ■ F m j I mf m 
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iiype^def unsign-nd char tbytcjiodnteu 


5 vc id Bhmj£syt qk i Sdyt e_poI ntc 


stact, Irtt l^n) 


7 Inn tj 

B Iflr £i = Qi i 
■S primf [ p %, 2 ic - 

;0 printfrVn^i 
11 ) 


i 4 + J 

starilij ]■ 


■c 


12 


1*3 voiel ahnw^lnt £int 3c) 
Ifl [ 


15 (< by tejoint «| 


Hi ¥# oC ( lnc}Jj 




I * \ 


17 


]a to id Fhow _ iiML ( e ; 

19 { 

20 sho % r _ hytM [( bvtej & int^rJ tx , 9 lie*f CflMt ) > 

21 } 


t X ? 


■ 

r 


22 


2 3 void shwjsointsrt^iid hi 

24 t 

25 dh 


kbytes ! £ bytej ： ginter ) 


» is € o-f fvold # l ) 


hk 


26 ] 


radp^fp ¥«nsx r 


2.a 打印程序対象的字节表示 


ftft * H 對 《 !! 豕續 


OW^mt ^ t 用 pr! 師格式化俺出 


m 


pHficr ii , 較 ■: i 有女錡间慝 fijrintf 和 sprlmf ) 援供 T _ 榛犬化 h 节有相冉大麯蝓由汰 I ■吟方 

<■ 華眷教是格武 t 吊其奈的 I 4 MP 是要柯 印的嫿.在慯大 每个以 
牛列 鄱表 + 格 A 化参教,典窄的申《色括 

—个淬 A 欹，而 


始的丰# 

是褕出一进+1墼歎，，味 r 是瀹占 




是 (tpljp 个字 4 个 f 符的鹹 4 咬 [tof 歡蜍|&时 


给 G 谦言《 宇者 , ttttaSH 哪发 

在兩教 sii&w.bj'tei ( a 2 .3 ) 申，我们 t 針和教姐走4将在 is 嗜 t #麵柏 

4_ 我 f ] + 对达个 4 撤有一令类 戋碡 bj ! te_poin(i!f ( 喊龙义为一个枒 ft Mtipod ch 

也是我们在第 9 行*对败狃弓|«_1在£：中.我的 (ft 够教齟良示潘表引用柞针 4 
我1也能用抽4卜表示法来？ IM 教 ii 元责. 衣速午铡子中，引用 st Mi [ i ] l 辛成 ft 想要螓取以 
的 4 il 为起始的* i 个位置 ft 的寺节 + 

ilhShcwjm 、 ■■huwjloii 

v 加^刑〔■ W 『 平纠节及小 


的相 4 T ) 的 秦;: 


財 


n # 向 


展示了如圬 fc 用两咋 Bhow^hym 来分判 JftHl 类期为 
可以观 S 利它们仅仅传逋铪一个描向它们 


n 















JL 这个作计被抑 ( N 炎 1 衫接为 Vr ^ ncdchtti *，， 这和 S 制类型转換匁诉編 m 
w 序应该把这个術针《成揹句一个卞节呼列， ifij 不 1 栉叼一+嫩始 t 据类彻的#染 * m - 这个衔 
针将报闷对象使附的巖愾宇 imit , 

推 c 爾亩 si 学费』 衔针的 釗建# 阖裱 $ _ 

4_u 的熟15- 2fl * 25 If； 成们 t 鰣对（:和 C++ 中碑神 ft 有樣件的鋏 fl. c 的 B |tit 址" 
逮萘符 t 刻建一个捭针 h 表逡1行+ 1 表 ^UUi 41l*T— 个撞由 flU| ■变 fs 的位 置的梱针 + 这个神 

针的與堡取决 t 見的 *«. 珥*达三 f 捆针的 典轚分 fkrt * 和推屣电尾 
一砷時硃義榮的搰钟，没有相关的类《信息^ 

»斜类«1*换这龙矸是将_#歡#*空朴提为并一_』因此， tt « 碾«#族彳 bythj^LfiWisrl 
Sx 表明尤 ^ m &\ 以 霄是# * * 犯 它乳在就 是一个 《 由截 # * 垔为 imiipiHl dm 衿相 针了. 


这些 sttt 使咁 cmeff 符 5 iz W 「 來桷定对 ftjs 咽的字 ufiu - fejc 说.戒达式存 

ft —乎赛 t 为 r 的对靠 if 需霊的宇节# ，使用 itoo ^ 而不是一个 1定_值， 是向编写在不网机橇 
突绝丄可移 tt ffl 代 BIS 进 了一歩 . 

在; Itt 不 PDftit ■上运行钿图14 街荦的 代硏，得 《 j _ 闕 2 JS 示的结** tt _ TWF 祕 

uum 11 felt Ubldu 


imu %\ Eniel 


N 1 q lnkfl P^niiwin H li • ：■ Windev^-NT 

Suns 


fi Mici ^ y 嫩 rtfb LjjyiSP^RC 运 t 「 Solnis ^ 

Cmp^q Al _4 21164 Tru 64 Ui \ i \. 


A 




1 void Le&t 一 ashcyw—byt *!!； (Int v#l]i 


2 [ 


Int ival = val? 

Cl 6 at Fva ] 

int *pval = 4 ival 『 

shcw_i.it JivaL] j 
ahcw.tloat [£val J i 

ihowj^intier ipvil 11 


4 


tflMtJ ival 


m 


n 

r 


mdcriobrtr^TA 卵 ■ ^ 、他 ■ f 


06 2 . 4 宇节表示的示 


a ® itP 4* hi . whs . 

孜钔的 2 只 5 的十 六进制表平； Hr 对子 iff ! m 的数据■除了字节_序以外. 
我们在所 WILS 上到 fflhl 的 绽來， 柃別 地， 找 fflPj 以 f 麫在 Lifliih KT 利 a 低有效 

宇 节值似 於最 先幢扎 这说明它们是小■法机癟，而 ftSw 上最后 life , 这说明 Sills 是大■祛机 
器， m ^ fic ^ L . 喙了乎节《哔以外> 也随 e ： 相 h 的. b —方 tn , 榭针位却晶芫全不 

不 pi 的机器/哚作系统使用个间的存储分 nijft 则，一个俏捋汴意朴持性 a uaui 
机 Eltffl lt 宇 f 地址*而 Alpha 佃用八宇节地址. 













All 的表 =? 扣处嫌 


HU 


FT 3 


宇节（十 


12 MS 

13 W 
12 M 

12 MSO 

ll % A 5 J 2 
12 ^SG 

]2 Jf 50 

* i 州 1 

tiv-al 

& lv^l 

klVAl 


inx 


IS M M DO 

於 3 D DQ 叩 

0( frO 1 >D 39 

AS * 3 D DQ OP _ 

@ Q > & 4 iSO 4 & 

⑽， 4 _0 朴 

^0 H DQi 

Oj cl <Q Jifr__ 

K U if ibl 
in ii U 42 

11 td 411 

ill Ic er IT Oi OQ OD M 


St 


Laft % 


1 m ; 


Int 


fla 4 t 

tl 。 茂 IL 

riaiit 


mvi 


M 


Sun 


lui 


hT 


LJl % 


Sun 


Ini 


M 


nt 




512-5 不》»掮值的手节 _ 示 

t _ 寒钃 ■#». 柑 n 值是 <i 机 aw ; 的. 

可 V 管办 点和整 邸数圉都是对数值 I 2 M 5 M . 值是它们有丰黹不网 ft 字令權式_ 
纪为 Chtumroow . 而浮点数为—畋曲占，这两 种格忒 使用不 网拥铂 码方法，拉果 

ftij 柙 这些十 Aittfe 梅式犷《为二进铜形式*丼且通当地将它扪移位， af ] st 会发埂一个有_3个相 
匹 Ifci 的位的序列■如卜'闻的一串扭号 felfi 出來的 

D 0 D 0 J 0 J 

flDQDO DdDQDQDQ 00000-1 1⑽0 000 111D(J1 


rTHIBFFWfr , ic 


9 


E 




D1000 UOQlD 卿賴 lim L0O0 咖 MQ D 

这井不 a 巧合 _ 当我们岍究抒点格炙时 f 述将 再回_这个調子 

缘习_ 2 惠 3 

鼉考 Tft 畤必01^_的丄个碉用 ■ 

0 X 12335679? 

t^te_I>£>i^tfrr vplp = (bvt^jaoiCLtarJ tval? 

shawJ ^ tfMvalp , lh P h , ” 

ahaw_trvtesfvalpj 3 ^ / *■ 0 , 

Khow_bvtesfvalp J J) ； /* c, */ 




ftd 3 在+蚌法机 S 和大 4 法机*上，蜃+谲用的_虫摭， 
A . 小 M 法 ■ 

B 小鱗法 3 

C 小*渣： 


太鎬法= 

太蟪法^ 




^_ini * sb ^_ fi ™ ii 我 #]4定盩歡34905«的十六迸私表承为0^035«2]— 兩浮点教 







*2 


34 W 593 il 的十云进瞥 I 良节为 ( h 4 A 530 CS 4 J 

A 写 it 这角个十六进 屮值 的二逷 ♦』 表示. 

&. 移姑达 ft 个二进納#的杯对 lit . 使得 t #] 私 1 E * C 的&鈒最大 

匕有多少位相岜 fc 戈？ $中的计么部分不相 Sfc ? 


Z 1 . 5 表示字符串 

Ct 的宇符卑被编巧为 1 个以 xwJHit 饱 A 辜）宇符结琢的字符 tti 


个 T 符郴 由篆个 

准壤硏来表示 P Mn^mm ascii 芋糊‘因故. M 呆我们议香败 u 1^345 0 ne 括终止符 ) 

輯行侧 fe il»wUbyte s 攻们 扣到銪 m 3233 U 3S 00, 请注 it. 十 1 制数字 jW ASCII 科正 if 

»th 宇 t 的十六进 : IN 农示 AlWM. ， 在 tfh Asai H 凡为 r 符码的任付系 SI 上 ffi 掷得刺 

相同的结 t 与宇 ftjfflf ?- 和罕大小规》1无关， 


fli 


tiiii 


文本 WffiLfc 二进 》 lt 椐具有史強的 1 f 1 台独 ft 




爱注， 生成一"诔 

可 dii 过执行命令 m__ii km ASCII 字#碎的表 


下*对: ii 她 bjiii 衿调用 将#? 占卄么蛄氧 


chav "& 


ABCUESF ^ 

Sh^nf_byt*^ (a rf aLrltri (s) } j 


iiJl 丰母 fc A 

旁注 ： Unicode <编_宇 _«_：«:» 字得第 

ASCII 字符 JMt 合砷务潘丈 is , 1 i ? 是它在表达一杏特4丰苻才6并逄省大多办法.倒令法 
诗的 _ r . 它 t 全芊 边合编 碣希 HH *. 饊谱和中文达抖#言妗 d II 边 . IftCirt Unimdc 芊并軋 
狨采躺風来支持所有#玄的1样.这种 呒字 节字骑4表辛 ft 得大 * 芥 fl 字符时表寺 t A 可 (L J 4 V 1 

编粗讳 S ■使用 Unjmdie 表表示 f # 争，对于 C 也省可用的 fl 序專氣錢併啟本的柘准字将丰 

AJt - 倒如 itai^n 


ASCII 碘为賴- 0 x 5 A 


Z 


2.1.6 表 示代码 

#虐下面的 C 请数; 

1 int Byrnrint x , im yj 


2 [ 


return x ‘ vf 


4 ) 


当 # t 们刑 +尚机游上编 译畔. 狄们生成部如 下 乎节表系的机推 m 

Linux 3 55 as e 5 fih ^15 an 03 45 DR , fl ? rc M i ^3 

55 J 9 o & Sb 4 & (k 03 45 0& S 9 bc 54 

81 Cj 

MpH 0 D DQ ；D 42 01 BO FA && 


I !； 


OS n til GD D 9 








信息的表示和处理 


这里我们发现除了 NT 和 Litmx 机器以外，指令编码是不同的。不同的机器类型使用不同的且 
不兼容的指令和编码方式。 NT 和 Limix 机器使用的都是 Intel 处理器，因此支持相同的机器级指令 a 
然而，一般而言，一个可执行的 NT 程序和一个 Linux 程序的结构是不同的，因此这些机器并不完 
全是二进制兼容的9二进制代码很少能在不同机器和操作系统组合之间移植。 

计算机系统的一个基本概念就是从机器的角度来看，程序仅仅只是字节序列.机器没有关于原 
始源程序的任何信息，除了 51能有些用来帮助调试的辅助表以外。当我们在第3章中学习机器级编 
程时，将更清楚地了解这一点. 


2.17 布尔代数和环 

因为二进制值是计算机编码、存储和操作信息的核心，所以围绕数值0和1已经演化出了丰富 

的数学知识体系，这起源于 1850 年左右乔治•布尔 (George Boole) 的工作，因此也被称为 布尔代 
数 (Bool algebra), 布尔观察到通过将二进制值 1 和 0 编码为逻辑值 TRUE (真）和 FALSE (假)， 

能够设计出一种代数，研究命题逻辑的属性。 

存在大量不同的布尔代数，其中最简单的是定义在二元素集合{0, 1} 基础上的运算。图 2.6 
定义了这种布尔代数中的几种运算。我们用来表示这些运算的符号是和 C 的位级运算使用的符号 
相匹配的，这些将在后面讨论到6布尔运算'对应于逻辑运算 NOT , 在命题逻辑中表示为1。也 
就是说，当 P 不是真的时候，我们就说， P 是真的，反之 亦然。 相应地，当 P 等于0时，> 等于 
1，反之亦然。布尔运算&对应于逻辑运算 AND f 在命题逻辑中表示为 A 。 当 f 和 G 都为真时， 
我们说 PAQ 成立，反之亦然。相应地，只有当 产1 且？=1时，才等于 U 布尨运算 I 对应 
于逻辑运算 OR ， 在命题逻辑中表示为 V . 当 P 或者!3为真时，我们说 PVG 成立 . 相应地，当 
p =\ 或者 f 1时，/? j 9等于 U 布尔运算"对应于逻辑运算 EXCLUSIVE-OR (异或)，在命题逻辑 
中表示为®。当 f 或 Q 为真但不同为真时，我们说成立 。相 应地，当 P =1 且或者产0 

_ R 今=1时，等于 h 


k o 1 


0 1 


0100 0101 0[01 

1 1 0 


0 


图 2,6布尔代数 的运算 

二进制值 1 和 0 表示 S 辑值 TRUE 或者 FALSE , 而运算符 〜I 和八依次表示逻辑运冓 NOT 


OR 和 EXCLUSIVErOR 


fM\K 


后来创立信息理论领域的 Claude Shannon 首先建立了布尔代数和数字逻辑之间的联系，在他 
1937年的硕士论文中，他表明了布尔代数可以用来设计和分析机电继电器网络。尽管从那时起计算 
机技木己经取得了相当的发展，但是布尔代数仍然在数字系统的设计和分析中扮湞着重要的角色， 


在整数运算和布尔代数之间有许多相似点，同时也有一些重要的不同之处。特别地，整数集合， 

0, 其中加法为求和运算， 


用 Z 来表示，形成了一个称为环的数据结构，表示为 < Z , 

乘法为求积运算，负号作为加法的逆运算，而元素0和1作为加法和乘法的单位元。布尔代数 <{0,1}, 
l t ' 0, 1>有相似的属性 6 图 2.7 突出了两种结构的属性，展示了两者的共同点和各自独特的属性, 
一个重要的不同之处就在于\不是 a 在 I 运算下的逆元 a 


+ f x 
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mn 
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SHttt 
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tarn 


fl 晒 




圩 Wttfl 


flIJSfe 


kmmm 
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mw 






账抽 ftit » 有什么好处 ? 

# 象代 4 t 包括 A 則和分祈不同 li 城内教# ii 具的共两爲性 k 典贺地..一个代数达是楗定义 A 


it 尤 ti 妓楗處 琴和 一 *t 喪的无*, it *-* 摘 歉适具 也构成一个 h tm ft , 代 ftiu 


0. I ) i 其 + 各个初分定义如 f 


+ B ? 


■ 


■p.i 


j；i 


Z , 




B + .fr 


■ a 嗜 


EL 


mi i.i 


aX m b 


0 


iH * 




fl . a > 


5 然模教达算扣瞽铍速算得对的社果不 rt . 拉是 t 们逐是有很务相《«#：響爲性时> 其他知 a 
的两电钇技有《教和实歆. 



































in 


I • 糾誦 i_ 

PHOHOUlEj 


的我示和吡 9 




如 JR 我 jfj 用 EXCLl；SIVE Oft _ 


算来取 R 布尔代麴中的 OR 

npmtkn 》/ 来取代补运算' 这里 W 于所有的也 

】>■ 这个链 悔不再是一 +布尔代 ft fe 实私上它择 一个环 ■ 它能被 视为一 种特轵麴齡的坏的形式， 

组 成的， 并 U 法翱桑法薷麋榍/1的*在这个《子中,我打汶 fl =2. 也 


wtm 


T= 


并且用 R—iSJI ictemiiv 


那么我打就得釗一个眭麵 k|CK h 




- ■ 




由 ㈣ 整_, 1 ， 

就1说，布尔 AMD fll eXCTLUSIVE - Oli 分 Sjffl 当于明2 的乘法利 加往 + 这个 代欽 的一个 奋怪的 « ft 
欢是 ■ 符个元素 昨5■它的如法 ©£, a 


■ 


■■■ 


旁逑 ■ 眛了教学 c , 还有 m 关心布尔珥？ 

每刍#事受一 ft CD 记录的清晰的音咏或者一象 DVD 忠旅的高霍 量的祅化势曲 
■ :# 尔 K , 述壓攻术等 你_|纠俯 确从碟 M 上施典取鉍.即使碟片 
讲4釣数 f 基|« 就11 于窨尔 H 的玫投代教 ■ 


称 齔衣利 

«有«良这鲞纠 


汉 fJ 昨睁将这 PH 神布尔 运算扩 展到位 向量上 , a 悅问^:就是某个时定长度为 k 的0,或 
我们通过构运算应用 到参败 相匹! li 的元； t . 来 SL 文对位向_的 ief . 


我们定义 

时 feff ' I . A 省魏 

表示由 W 个梅号 tfft 成的事, 


Jll i %] S ：[ fi ^|, 

的龙夂 ■ u < 1广尜示斯 有长度 为_的1 1 申的集含 
么#捕进到 flsua 烊的代数=<10, - B k 
别构成了布尔代敫和珲 




B !■_ 


■I p 


B P 


■ 




«% . 6 >ft <[0 

一个 不阀的 U_ tt M 定义了 一个不 R 如布尔代数和个不味的布尔环 


, L 圹 


分 


> 


■I 


1 


旁注=有尔琪和權运！^样玛公 

-龙的布尔和私小 ' 

#广刘•氏度泠 w 的位南量，会得約与_速算非當本同的 fll 


/. a , i>^m t 也 


o ,]> 是相 


^^^4 K 8 J 


f _!■ 


填茸下表，蛤 A 对位令 f 的丰尔 it I 的求值秸表 


ffl 向 Wi ^— 个有的 座用就是 表示: fiHtli 合■例 _■ 我们 瞧 够用位 向童〗 

^ |0a L 

嚇 *i 写布丰边 >，我 flj 有 j 货 hh lonan 纖 h#ji 


q^iJ 来:# 

tl ■其肀 p _ tttop (记 是£^_写在在边 + 


I. 


■ 


kr 


[0, 3_ 5_ q •而 fc 耳 [tHO 101 0 】 I 丧 爪集仓 a 1.0 k 

_相3 于集合的补.比如， 


I 4 , 在这种中,布尔 MJII 和裊分 S (相当子集舍的井 難交, 

辫到位向! t ! 01MMft ( nj , ® AflB = 叫 

上，对乎 ttflis 合又钴 ft msxu , n . 


d 


^ s > 形成了 一个布尔代 ft , 其中所 


■ 







d 


3 


ffi 


m 


h 


h 


b 


1 


\ > 


4 b 


£ - A 

nu I 1 






也《 是说 ，对沪任何铌合 a . 它的 补衆就 是浓旮 a 3 
ESlfff 使用位问量 込 锌来*本和棵作有闈 tn 的 feJjr 匙实授一种痛枣的物令喵班的坊果 

« M 站 

’納 1 ‘ 、, f lr _ - / * I * JBtj “ I 」 1 

4过 : 11合三种 7； P ] ft 色的先 ^ t^th 计算机在故饋屏本或者洗 ai * 界上卢 i 耔4 
的 aa _ 孳的方法，便用五种芯《秩色的先..每钟光坏 tt 打开或美 闲. 彼財列玫璃屏幕上, 

A ^* 


41 


光 tt 




0> 


中么基于先》 hiji). □ 1 ii], B ( 蓝 J 的足 AUG) 或打并 { I ), 我们就屹轉创碡八 种不 


的 


Hi 


_ft 


mp . 


Snti 




£ l 1 f £ 


H 喊 


fit 


这些相色猗 1 合形 ij 一个八元素布尔代 fe 』 

A. - 1 钟相色的朴乂 4it 关#部參打开的1打 ff ■形喳 It 榑的耜4光而劁成的 
列 i 灼 A# 啪 t 的朴是件幺？ 

B . 叶于这种 代极. 布右 fllT 和 p 甿 A 的押 t 
C fil 述吋下列相色疾 rtl 布尔这 其的场 31 , 


吓 A 上由 


it 


色 


紅紫色 & 1殊 t 


蛛色 


亡色 


2.1& C 中的位级 3 M 

C 的一 个很冇用的恃 性就兄它支持忮位％ 尔运 f , 琊矣 上_找 fm : MUI 中使用的》些符号 
銷珐在 c 中使枏 的； | 戲 ftoRr mi ^ Am , " jKInot 

运用蚵仟何-«屯”的数摇典坦 b 也诚 1 ，那些声用 Adiy 或 f bit 的蜃期脣登> fit 有没有镓 


这些运翼_ 


■ ■ ■ 圓 

















"Stmp I 

St 印 2 

/ m Stefr 2 






Y 


X 




I void inplsgi _ awap[int tnfc 


# 


根据下 *^-[11, « IL * . i = jh 9 BFDECBA 和字佐为 32 4±衬的 rt *. 
所辛妗 》 为轱 災. 


在 C 的表达式.才括号中 


练习昀 2.11 






. 这._是-个賺先裹執-个宇巾选_- 
載‘让 Mlt # 賴有效瑜为 个 字的低位字 L 位微运奠邮辨 

t 成一个曲，拊 fi 低冇效： 宇竹姐 成的 值. 而 K 堆的宇 f 就族 t 为了 1 fcfeK 对于 ^ kS 9 AJCDEF _ 
及玷式 将佾到 thODIWWEF ， 农达式 '0 将生成 「个全 I 的掩码.不 f 扒 S 的字大小塵 尽 苷对于 
一个 32 位机器 KWf 猶掩码吁以写成 DkFFI ^ TFFF , 但是这 样的代码是不可稃梢旳_ 




< 


r 




b 


# 


正如相 4名孑砑 HI 子的昴#, 我们认 为这个 过鄆的 ftt 是交換指 *+ 交 f 

处存核崎彳 L ii 


和 y 所#灼的 4 W 位 

与 i 常的交找两芥數植的忟來不一样-甚我朽件动 一• 个後时，我们苹其鲁第 
个 (±3朱枯时存祕 个 [L 这#史块方氏并洗有 +tt 上的优势.它仪仅是 

时.凋针1和 y 所扑內的 仗1 冉械时值分取是 


个_力上的清速 B 
在 報序蛉 每一步之 

母个元素 


和知， 填写下 

"- 存伸忒逯两个位 i 中的 fi H 利月坏妗爲 a 来表明所*耷的鋏策被延到 7 
是 t ft 弁的扣法达元< tii 是说. 




Q ). 




a -fl 


为了展示^的琛属姓的用坟 ■ f . 下面* Ht 序 




E 如我 ff 』 的祕例说明时_,确定一 * 个位级故 ii 式的_果的最衫方怯就足搿十六进萌恭数扩楗成它 
们的二迸执行二进制运 I ,然只冉 HttMl 六进 制. 




*. r 


m 


3 


flllillOL 


|OiLH>L£UipijQ(niniCl|k 


顯 ㈣ 5 


Ibd 




则 ] Ca0iJiiMtmi4i#|iDi] 


DK#9aLGu^i 


III III] 


MB 


mvv 


(10ii]|iV| 


㈣ l 


HtAM 




= 进 《« 达 £ 


的表示和 * fcflf 


?9 


■ mg 犴咖这枰的限记词 ■ 以>"楚™些表达武求值的例 


fix 


㈣ 财 


rrf rl— ，/ 

»i-T 


X y K. 

,#•*- 


J JT KJ fi 
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A. x 的最低有效字节，其他位均置为 UOxFFFFFFBA]。 

B. x 的最低有效字节的补，其余字节保持不变 [Ox98FDEC45J。 

C. 除了 x 的最低有效字节外的所有字节保持不变，最低有效字节置为 [)[Ox98FDECOO]. 
尽管我们的例子假设的是32位字长，但是你的代码应该可以工作在的任何字长下。 


练习鼉 2.12 

从20世纪70年代末到80年代末， Digital Equipment 的 VAX 计算机是一种非常流行的机型。 
它没有布尔运算 AND 和 OR 指令，它只有 bis (位设置）釦 bic (位清除）这两种指令 a 两种指令的 
输入都是一个軚据字 x 和一个掩码字 nu 它们生成一个结果 
得到的，使用 bis 指令， 这种修改就是在 m 为1的每个位置，将 z 设置为 h 使用 bic 指令，这种修 
改就是在 m 为0的每个位置，将 z 设置为0。 

我们想要编写 C 函数 bis 和 bic 来计算这两个指令的效果，使用 C 的位级运算，填写下列代码 

中缺失的表 达式： 


是由根据掩码 m 的位修改 x 的位 


Zh Z 


t * Bit Set V 

■■nL 


ml 


x, in 


/* Write an expression in C that computes the effect of bit set 

inL result = ； 

return result; 


产 Bit Clear */ 

int bic(int 


x 


/* Write an expression in C that computes ttie effect of bit clear */ 

int result = : 

I 

return result; 


2.1.9 C 中的逻辑运算 

C 还提供了一系列的逻辑运算符 IU &&和！，分别对应1命题逻辑中的 OR、AND 和 NOT 运算。 
逻辑运算很容易和位级运算相混淆，但是它们的功能是完全不同的。逻辑运算认为所有非零的参数 
都表示 TRUE , 而参数岑衷示 FALSE， 它们返 In] 1或者 ( h 分别表小结果为 TRUE 或者为 FALSE。 
以下是一些表达忒求值的〆 例： 


表达式 


结果 


5 0^41 


0x00 


: 0 x 0 D 


0x01 


: 10x41 


0x01 




SxC ； 


0x6^110x55 


xOl 



示和 ttJS 


4 t 


可校位运有在符嫜携况咋.也扰 览婪数 JSBW 制力 0 或# 

tttiiftTT 相同的行为， 

进 tt 运 t 符 Jtftftll 与它们对庞的位鐘运打&和I之询》二个破軎 IftE 别岛，如来对 m— 个参数求 
位就能曲 定衮达 式的结1么逻辑运箅符软个合对笫二个 蒹数乐 值_因此，衣达式 
将+会4成被军除，而表达式不会导霣间技引用窄撺计 ■ 

K 和 j ■的字节钮分別为相0伙 j , 填:写下乳， is 确各个 clui 式的字 布《= 


1相与其 对应的 


mf 


TO 


■时 


裹达 A 


t Y 


m n ^ 


114 LI \y 


^ «y 


s 4 i -y 


嗔 ，: SSZM 

:'w w 

X 使 f| 位鼓知運样 速算. 蝙其一 "个伫 表 达 武 f 它年徐于换句 if 说 r SlSjF 和 y 相爭时它 

将逄时 U S 叫就返 IBD. 


Z 1.10 C 中_移位运翼 

cmm - mm ^ w ^ 以向左成酋向右棵 琦伶横 式*对乎一个位忐示为 

的 C 触式 I « k 会生成-个他， 

ft *. 丢穿 fc 个 •(!■, 并在 右_#了*十各 ( M * fi 鑲*一个 ft ^ irl 之 W 的 

flL 柹位垣 算从左罕右给 t 听以 龙价于 ftftifcU 符的优先®; k < S - l 应谏 
m E «0- lp ^ I «5 )-l 宋求值 h 

妨一个相应的右揉 但最它 的行为有点微蛉* 一般 ifi 盔，机 HS ： 符两种 瑕式的 芯移! 

i ], f 米右移 
^1* 傲法 f 上 


0-1 0 U 也 






遺辑的和算木的 1 逻 ® 右稃在 M 堆朴 Jk 个 0. 得封納结來 ！^, 

Jd a fe is ^ t i"i it ¥ t m w - ，.- P 

去 y 能 ft •点舒待 ，但 a ftin 会发现它对有衧号 • t 数 * 的运 霣非 t 存坩¥ 

[ 准丼&耷用揷定义 应该使 用《种类崩的右稃。对于无符号敢掮 C 也铣跬.以 Wia^limBigiHl 

右移必油是逻《的，而对于有符号教据(酞认 h 冥 术的或 者逻辑的右移相: : i ] ■以, 
不车地，这就麗 R # 飪 冉联设■神成 音»—种右择形式的代码無柙4地会《刑>： [移 BttWE * 然 

实 K 上， / If 祈有的编译 S 作 LS 翎含■对 f 符分右移 r R 许多 ft 序 a 也 ffi 瑕珙 使闹这 
轉右移, 


■ 0l Jfs- | h Js^ j i 


MJJM 2 JS 

填写展示不 R 籌住选尊 对单字 节教的唞嗦. 鼉考# 位逯算的最母 方式 是使用 制表示 

方夫，初的值柃换为二进执行移粬£4 算，麯后 再将它转捩 W 十去进《,聲个 答觜秦边铒是 
8 +二进钊 fc 字成老2 +十*迭制权字 + 












x «3 


x»2 


x»2 




(算 术的） 

二进制十六进制 


__ 1 (逻 辑的） 

十六进制二进制 二进制十六进制 二进制十六进制 


OxFO 


OxOF 


OxCC 


0x55 


2.2 整数表示 


在本节中，我们描述用位来编码整数的两种不同的方式：一种只能衣小非负数，而另•种能够 
表示负数、岑和正数。在后面我们将会看到它们在数学属性和机器级实现方面有很强的关联 D 我们 
还会研究扩展成者收缩一个巳编码整数以适应不同 K 度表小 =的效果。 

2.2.1 整型数据类型 

C 支持多种整型数据类型——犮小 有限范 围的整数。这些类型如图 2.8 所不。每种类型都冇一 
个人小指示符： chars short, int 和 long，R 时还冇被表示的数宁是非负数（声明为 umigned)， 或者 
可能是负数（馱认）的指不。图2,2中给出/对这些不同的人小的典爭分配。如图 2.8 所不 T 这# 
不冋的大V允许表示不同范围的值。 C 标准定义 f 每种数据类型必须能够表示的最小数值范围.如 
1中所示，虽然 C 标准允许16位的表示，似一个典型的32位机器使用 个 32位表示来茨示 intW 
imsigned 数据 类型。 像图2+2所描述的， Compaq Alpha 使用64位字来表 >i< long 整数，无符号数的 
上限超过 f 1.84x10' 而有符号数的范围超过了 ±9.22x HJ 18 。 


保证的 


典型32位机器 


C 声明 


鼉小值 


最大值 


小值 


最大值 


char 


-127 


127 


-128 


127 


unsigned char 


0 


255 


255 


short [inf.] 
unsigned sherc [ jrit J 


-32 767 


32 767 


-32 m 


32 767 


63 535 


63 535 


int 

unsigned [int] 


-32 767 


32 767 


-2 147 483 648 


2 147 4S3 647 


0 


65 535 


0 


4 294 967 295 


long[int] 

unsigned lorg[ irr .； 


-2 147 483 647 


2 147 483 647 
4 2y4 %7 295 


-2 147 483 648 


2 147 m 647 


0 


[) 


4 294 %7 29? 


2.8 C 的整型数据类型 


JJj 


中的文字是 4 选的 n 


C 语窗初 学者： C 、 C ++ 和 Java 中的有符号和无符号數 
C 和 C ++ 都支持有符号 （ 默认） 和无符号教 fl Java 只支持有符号教. 










息的表承 


a . 2.2 s 符咢和 二进制 I 卜码编码 

瑕& 有一个呔鼉数诨类取有★位，我 m 可以柙俾向_勾由 i . 丧示螯个肉 
y 、《!■ 表示向 置中的毎一位 

我求，哉扪用一个闲》幻 K f 代* •无 符号时二进餐 T , 长搜为 W S ： 农承这种形式; 

H 、 I 


无 fi 做 一 th 成二进制及^的敵，狀们就获得的 t 符 m 


1 


(2.L) 


在这个等式中，符号" * "我祕左手边被企义为写于右尹]^蛐 ftfl ?(4 将一 t 长*为 
1串呋 ir 到非负《 ft _它时最个值迪用倥隹 ， ioo . i ] it ¥_ 也就是》教值仏而 e 的规大 a 是用位 

benHiiil 


0 


W 






3 


闶此■阐軚 够被 定义为一个昧 
射 B?CV P H IL-EO.-. 2，-11-注1拉仏.^一个蚊射一对 ft? 一个长准为*的位转 Jib _有 

一个 t _ 的個与 Z 对应；反过在之网的每 一 tlftffft - 个惟 一的长 度为 w 的位|1|量 
二进 《* 示与之对应, 




对于扦多&用 > 也们还希锄* 示负 tbffu 屬常 讥的有符斗 ft 的 itjr 机农 孑方式 貌* 二遴刪补碎 
( iWfl ^ hfipklTKGt ) 形忒 h 它旳 定文 将宇的麝高有》 俏 If # 为负 fe C ^| alLv « w ^\ t \ K 我们用南数 
B 2 T , [农示 u 二进 制到二 a ■朴 ir . 乘丧 示技种 


〜产+ J >2_ 


B 2 TJH = 


( 12 } 


j-o 


钕*有炊位也称为符号位 CaiSBfeiO - : bSStB 为1时，农系值为负，《当嵯设置为0时，值力 
- 它 能 农吊的 助 1 Hfifefe 同世 [】0_ u (3] 设 t 这个位为贷权，仿是淸铨 其他所 4•前位 )■ 

-邏 2 矿 1-1 


而躁入 mm ^ 

Hf 『池， ftfrw 以較嵬 fl ? r h 个叹射■广 r fc - i ), 朴于可 表承檻闷内 
的 ft 个位拽式拥有-个惟一的&数与之对疰， 




m 


■ 


W 


m 


籌 5 ii 2.1 

成仍眈给每个可 ft 的十六速柄我 f 畝 f -个教嫿，彀波是一个无旖奇 Jll 者二进 树补 
战表由 + 清根樽这喹良示_魂过葺士等炎 2 . 】 扣 2 _2埘示的求和公式争时 i 的非 零豕* L 壤茸下 jjt T 




£ 


[il 






Hif 


"• ■六 


=fln 

'-"■■■■■ 

LlOEQi f+zWlfl 




Al __* 


A 


C 


示了 不问字 k 的几个#有埋的" e 卞的位_式和 ft 俱,前三个给出的龙可表军的 羲数的 
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范围。打几点值得注意。第一 f -进制补码的范围是+对称的： \TMinJ = \ TMaxJ^U 也就是说， TMin w 
没有与之对应的正数。就像我们会看到的，这导致了二进制补码运算的某些特殊的属性， 丼乱 容舄造 
成程序中细微的错误。第二最人的无符号值刚好土_进制补码的最人值的两倍大一点： VMax w = 2 
TMax ^ U 这是因为二进制补码表小保留了一半的位模式来表小负数值。其他的情况是常数 -1 和0, 
注意 -1 和有同样的位表示 


个全1的串。数值0在两种灰尔方式中都是令0的串 




字长抑 


16 


DxFF 


OxFFFF 

65 535 


OxFFFFFFFF 

4 294 967 295 


OxFFFFFFFFFFFFFFFF 


IS 446 744 073 709 551 


255 


0x7FFP 


O^V^FYFFF 

2 147 483 647 


0k7FFFFFFKE'1 ;, F?FFFP , 


32 767 


9 223 372 \)3b H54 77S mi 


127 


0x80 


0x8000 

-32 768 


OxSOOOGGOG 

-2 147 483 MS 


0x6000000000000000 


TMul ^ 


9 223 372 m SS4 775 iiflK 


-12 & 


GxFF 


OxFFFF 


OxFFFFFFFF 


OxFFFFFFFFFFFFFFFF 


0xi)[) 


0x0^00 


0x00000000 


xGOOOOOOOOOOOOOD^ 


2.9 “有趣的”数字 


给出了数字值和 I 八_进制表小_。 

C 的标准并没右要求要用二进制补码形式 来表不 有符号整数，但赶几乎所有的机器都钯这么做 
的。为了保证代码的 W 移棺性 f 除了图 2.2 所小的那些范围之外 T 我们不应该假设任何 卩1衣小的 数 
值范围，或者假设它们会被如何表小。 C 库中的文件 < limiu . h > 定义了一组常量，来限定运行编泽器 
的这合机器的不冋整型数据类型的范围 e 比如，它定义了常暈 INT , MAX 、 INT _ MIN 和 U 1 NT , MAX , 

它们描述了有符号和无符号整数的范围。对于，个二进制补码的机器，数据类型 im 有 w 位，这些 
常量就对应于 TMoj : h 、 TMi 〜和 UMax^c 

旁注： 有符号数的其他表示方法 

有符号數另外还有两种标准的表示 方法： 

二进制反瑪 （ Ones ’ Complement , 又译作“一的补码”)：这和二进制补码是一致的，除了最高 
有效位的权是 1) 而不是 -24 






i (2^- l ) + 


B 20 w ( x ) = 


一 X 


1=0 


符号数值 （ Sign - Magnitude 最高有效位是符号位，确定剩下的位应该取灸权还是正权 


w n 2 


X Xj2 ' 


B 2 S w ( x ) = (- l ) 


ip-1 . 


1-0 


这两种表示方法都有一个古柽的属性，那就是对于數字0有两种不同的编码方式，对于两种表 
示方法， [00 -.0]都被解释为40。而值 H 3 在符号量形式中表示为[10.-0]，而在二进制反码中表示为 
[11 … 1]. 虽然过去生产过基于二进制反码表示的机器，但是几乎所有的现代权器都使用二进制补码* 
我们将看到符号數值编碣方式使用在浮点數中， 











#4 的表在和段 
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滑法意二补碘 UWsH ™ rpi™ii ) 和二进 铡反踔 （ OW ^ 


pfcnwmS 中=4号时拉置晃不 


Iflrt 


作为考虐下面的代 Wi 

1 Lm K = ll345j 

2 Mhgrt int 


ii > r - 


一 KJ 


sh^jyy t 邮 I <b/te_PD£nter \ g 1 neof f Bhctf l irt!t]] J 

ssJiDwJbvt ee t (by cie 一 point 守 r t 4 


0 iiMf(»hort int IJ 


■■u 


■ 

r 


i&i 


位 


I A24 - 


■T 


m 


o 


R 


i]92 


]*3 U 

M768 


±32: 


m 


W If ! 


Z 1 Q l 3345_-12 34 A _=.|!|^^ ib ^ 以 


__无修号*示 




it Ah lii M 个 S # KP 的 C * '3： 


4运行4太編法 tfLS h 射. 这段代 砰的桷 It 为30 WflUfdr 痢明 X 的彳六进制表示为 加職 
M 十六进 W : 丧示为 0 KCPC 7 ■缚 它们展开 A 二进制 ■ ft 扪得列 I 的位棋 或为100 1 looram j 11 
hi 邮權戎 MiififliMfiimoui ]. 等式 2,2 对适两个你生成的偾为 

和 - E 2 345 圓 

练习 a 2 1? 

nw A ® cn 馮形式的種4 * 这鲞文科 t 含怜多十 女进制 ft 字 ■ 典尖地#是用二进#*_母式 

良表示这痊值 的. t 钵认识这#教字务 獲解 它们的言又（例如，它* ptjttjilS 数 1 S 是 一 Jff 重 
喪的技巧 + 


ms 


il 


12 345 




反记 _ S 是一种杵 T 执行班4 夂件犄 羲田 
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在下面的列表中，对于标号为 A~ K (标 i 己在右边）的那些行，将指令名 (sub. push, mov 和 
add) 右边显示的十六进制值转换为它们的十进制等价值。 


80483b7 ： 81 ec 84 01 00 00 sub 
83483bd: 53 
8D483be ： 8b 55 08 

8D483cl: 8b 5d 0c 

83483c4 ： 8b 4d 10 

83483c7i 8b 85 94 fe ff ft 

83483cd ： 01 cb 

83483cfi 03 42 10 

33483d2 ： 89 85 aO fe ff ff 

83483d8r 8b 85 10 ff ff ff 

83483de: 89 42 lc 

8Q483el ： 89 9d 7c ff Ef £f 

83483e7: 8b 42 13 


$0x184!%esp 
%ebx 

0x3(%ebp),%edx 
Oxc(%ebp) ^ %ebx 

0x13(%ebp),%ecx 

Oxf£fffe94(%ebp) F %eax 
%ecx,%ebx 

0x10(%edx)^%eax 

%eax,OxfffffeaO(%ebp) 
Oxffffff10(%ebp] f %eax 

%eax,Oxlc(%edx) 

%ebx,Oxffffff7c(%ebp) 

0x18(%edx), 


A 


push 

rrov 


A 


C 


rrov 


D. 


rrov 


E , 


ir.ov 

add 

add 


R 


G. 


rr-ov 


K 


ITiOV 


ITiOV 


mov 


K , 


mov 


2.2.3 有符号数和无符号数之间的转换 

既然汜都是双射，它们就有定义明确的逆映射。将 [72 儿定义为 S 2 队 ' 而将 H 凡 
定义为犯?7、这些函数给出/一个数值的无符号或者一_进制补码的位模式 d 给定范围内 
的一个整数 L 函数 （72^(4 会给出 jc 的惟一的 w 位无符号表示 D 相似地，当; c 满足 

函数 72S 上) 会给出 jt 的惟一的沖位 /. 进制补码表； J；。pf 观察到，对于范围 0 Sjc <2 w 1 的的值，这 

两个函数将生成同样的位模式——最高位是0,因此这个位是止权还是负权就没有关系了， 

考虑函数 J727；(;c) 士拟&«/21(幻），其输入是一个0〜 2M 之间的值，得到 个 - | 〜 2 w -i-l 
之间的值，这甩两个数有相同的位模式 T 除了参数是无符弓的，而结果是以二进制补码表示的。相反 
地，函数⑷士 .⑴)生成一个无符号数，它和文的二进制补码值有相同的位表示。例 

如，如图 2J0 所小， -12 345的16位二进制补码表示就和53 191的16位无符号表示相同，因此,72[； 16 (-12 
345> = 53 19t ，并 Fl_ t/27 16 (53191) = -12 345。 

这两个函数看上去好象只有理论价值， 何实 际上它们有非常大的实际意义——它们形式化地定 

义了 C 中有符号和无符号值之间的强制类型转换的结果6例如，设想在一台二进制补码机器上执行 
下列 代码： 


1 int x 

2 unsigned 




(unsigned) x; 


ux 


因为从图 2,9 中我们可以看到 -1 的 w 位二进 制补码表小和有相同的位表不 + 所以这段代 
码将把 ux 设置为其中; v 是数据类型 int 中的位数。一般而言，从-个有符号值 x 强制类型 
转换到无符号数值 funsigned ) x 就相弋于应用函数 Df ；。 强制类型转换并没有改变参数的位表示， 

只是改变了如何将这些位解释为-个数字。相似地，从无符号值 u 强制类型转换到冇符号值 ( int)u 
就相当于应用函数 [727； 

练习通 2.18 

利用你解答练习题 2.16 时填写的表格，填写下列描迷函数72%的 表格： 



rt . l-c 叔*和 


•n 


为 .「f 好地 IP —个有符弓 ft 宇 a 和与之对疱的无符号歡 T 7 C / JZ ). 
的饺 农 * 这一®实束推导 ili— 个彀字关系， it 较等式 2.1 

我们计* B 2 UJH ) ^ B 2 TJil}t 

K 叫汁取 TUi > = J ^|2*. SBl 两到一个 X^ F 

II 们 y ： jifefl ? rj ： o , 我 fnw ： 有 


戌们柯以利用它们有相冋 
2X 拽们吋以 taw 子位橫式 h 如搞 

从0到『2的聆的加 权利将 互柑抵柄神， w 下一个 




B 2 UA £} = s w ^ v tB 2 J ^(^ 


B2UJ.T1B W (ji)) 

这个关系对于 il 明无符号和二进勒补码运 t 之间时关系是很你用的 
巾 _ 倥 4.4 定 /^ 是否为免「待到 


™ w U ) 


+ 


m > 


在 JC 的二瀘_】补»表示 


:+2' i<0 

jt, jrfcO 


m w [^) 


C 24 J 


a 


( H 2 j ] 说明了磋数乃1/枘厅为_ mmm ^ 当将一个有符号数呋«为它相血的无符号 
数时，负数_被« 换戍 了入的 正*， 而 ir 负数会味持不耷， 




从：：进制 t 碍《无符§»訥轉換 




镰习 K 219 w ^ 

诱氣明 f 式14 是如 作应 flSU 诹在_答|| fl ^ UlJi ^^4成的| L 樁中釣备，的■ 
M 来科， itm # 电 ft 导出-个无符兮 ft ， 和与之对应的賴号数 U 2 T ^) i _ tH \ m ^ 


Til 


BlTMBJx }} 

痄尤符号 农示中 i 位抉定了； r . US 大 于或# 等于 2" 


UITJj ) 




t2.53 


I 








2 


V 2 TJ x ) 


( 2 , 6 ) 


_ y ， jt >2 


图 2.12 说明/ 这个行 为。 对于小的数 (<2 w l ), 从无符号到有符号的转换将保留 数字的 原值. 

对丁 •大的数(>2"-'),数字将被转换为一个负数值， 






无 符号数 


二进制补码 


2.12 从无符号数到二进制补码的转换 




由数 mr 把人于2"-'-1的数字转换为负 ft 。 


为了总结一下， 我们讨 以考虑无符号〜二进制补码表示之 间互相 转换的结果。对于在范围0 

之内的值而吉，我们得到 T 2 fU ： c ) = ： c 和 f /2 T w (_ r 卜 jc 。 也就是说，在这个范围内的数字 

有相同的无符号和二进制补码表示。 对子这 个范围以外的数值，转换 ffi 要加上或 者减去 2' 例 

我们有7^[4(-1) = -1 + 21=?；好0/——最靠近0的负数映射为最大的无符号数。在另一个 

极端*我们可以看到 T 2 U W (TMO -2 w4 + 2"' = 2"^ = TMax w + 1 ^ "最小的负数映射为- 个 刚好 

在二进制补码的正数范围之外的无符号数。使用图 2.10 的示例，我们能看到 7'2 t / lfi M 2 M 5) = 65 
563 + -12 345; 53 191。 


2.2.4 C 中的有符号与无符号数 

如图 2.8 所示， C 支持所有犒型数据类型的有符号和无符号运算。尽管 C 标准没有指定某种有 
符号数的表示，但是儿乎所有的机器都使用二进制 补码。 通常，大多数数字默认都是有符号的。 
例如，当芦明-个像12345或者 0xlA2B 这样的常量时，这个值就被认为是有符号的 4 要创建一个 
无符号常量，必须加上后缀字符 “IJ” 或者 “iT (例如， 12345U 或者 0xlA2Bu) D 

C 允许无符号数和有符号数之间的转换 4 原则是基本的位表小保持不变。因此，仵一台二进制 
补码机器上，苎从尤符号数转换为有符号数时，效果就是应用函数 U27；., 而 从有符 号数转换为无 
符号数时，就是应 W 函数其中 w 表示数据类型的位数。 

显式的强制类型转换将导致转换的发生 t 就像 下面的 代码： 


1 int tx, ty ； 

2 unsigned ux 


uy ； 




(unsigned) ty ； 


ux 


另外，当一种类的表达式被赋值给另外一种类型的变 t 时，转换是隐式发生的，就像下面 


的代妈: 


1 int tx, ty; 

2 unsigned 


ux 


uy ； 
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ux ； /* Cast to signed */ 

uy = t.y - ^ Cast to unsigned ^ / 


4 tx 


j 用 printf 來输出数值时 ， 指小 mkl、 ％1!和％\分 別闬朿以有符号十进制、尤符号十进制和 
卜六进制格式来输出•个数字。 迚意 printf 没有使用任何类型信息，所以它可以 用指不 符％1^来输 
出类型 int 的数俏，也可以用指小符％(1输出类型 unsigned 的数值。例如，考虑下囪的 代码： 


1 irst x - 

2 unsigned 


214^483648 ； /* 2 to the 3 1s：. 


u 


4 printf < Pl x = %u 

b printf \ 

、在-个 32 位机器上运行时，它的输出如卜 

x = 4294957295 
u = 2147433648 


%d\n p, 

%u = % d \ n ,p 


x H X}; 


u ); 


u 


f 


f 


-2147483648 

在这两个小 例中， primf 首先将 这个字 作为一个无符号数输出，然后把它3作一个冇符号数输 
出。我们可以看看实陆运行中的转换 函数： 721^卜1)二哪0%=4 294 967 295和^/27^(2 31 )=2 3| - 

2 32 = -2 M = rMm 

由于 c 对同时包含有符兮和无符号数的表达式的处理方式，出现了一些奇特的行为。 a 执行 

个 k 算时，如果它的一个运算数是有符号的而另一个是无符号的，那么 C 会隐含地将有符号参 
数强制类型转换为无符弓数，并假设这两个数都是非负的，来执行这个运算。就像我们会看到 
这种方法对于标准的算本运算来说并无多人差异， （ M 是对于像<和>这样的关系运算符来说，它会 
导致与直觉不相符的结果。图 2.13 展^了 •些关系表达式的小例以及它们得到的求值结東，这里 
假设使用的是•台32位机器和__进制补码表小。与貞觉+相符的情况用标出宋考虑一 
卜比较式 - KOU 。 因为第 一个运算数是无符号的，所以第一个运算数就会隐含地转换为 无符 号数， 
因此表达式就等价于 4294967295 U <01 I ( M 想-卜 72 f / h ,(-〗） = f / AfojcJ ， 这个答案显然是错的。另 
外那# 示例电 nj _ 以通过相似的分析来理解。 


3 Z 




U 


有符号 


m 号 


0U 


有符号 


^ K 74 S 364^ 


-2147483547 : 


> 


无符？ 


21474 H 3(]47 U 


- 214 " 433647-1 


f] ■符号 


2147463647 


I inr 」 2 14748364B '： 


有符 4 




[unsignedj 


2.13 32位机器上 C 的升级规则 （promotioruule ) 的效果 


非 A 观的情况被标 ii 丫 

匸屮，为避免溢出 fn : 题，我们必烛把 TMinJ 2 %为 -21474 R 3647- I f 而个足-2147483648。编译器处3 ■个形 fe - X 的表达 A 
的心法足代 X ,然后对它取反， 1 MM 21474836478太大不能表水为-个32位的、：进制补码的数 n 


,与比较次达式中的 ft - 运择数是无符号的时 t ， 另--个被隐式强制转换为无符& a 在 






第 2 章 


50 


嫌挪 

1 

假设在采用二进制补码运算的 32 位机器上对这些表达式求值，按照图 2.13 的风格，填写下表， 
描迷强制类型转换和关系运算的 结果： 


达式 


求 


[] 


-2147483648 


2147433643U 




-2147483 ㈣ 


- 2im&3 




(unsigned) -2147483648 < -21^748^46^ 


-2147403646 ^ 21474B3643? 


(unsigned) -2147483646 


2147483543 ^ 


< 


22,5扩 展一个 数字的位表示 

个常见的运算是在不同字长的整数之间转換，同时又保持数值不变。当然 f ag 标数据类 
型太小了，以至于不能表示想要的值时，这可能根本就是不可能的。然而，从一个较小的数据类 
型转换到一个较火的类型，应该总是可能的。要将一个无符号数转换为-个更大的数据类型，我 
r 只要简单地在表示的开头添加 ( K 这种运算被称为 零扩展 （zero extension ). 要将…个_进制补 
码数字转换为-个更大的数据类型，规则是执行一个符 号扩展 (sign extension ), 在表示中添邠最 
髙有效位的值 。因此 ，如果我们原始值的位表4为 




”，和]，那么扩展后的表示就为 


、 A ] 




例如，考虑下面的代码: 


1 short 


严 ■ 1 2345 */ 

/* 53191 */ 

-12345 
；* 53191 V 


val } 

2 unsigned short usx 

3 dot 

4 unsigned ux 


sx 




sx 


X 


EX ； 


USX 


6 printf ( 11 sx 

7 show—bytes((byLe_pointer> siseof(short)) 

8 printf { ,r uBx = %u: \t 

9 show_byLes| (byte_point ： er) &usx, sizeof (unsigned short) } 

10 printf( n x = %d：\t 

11 show ， bytes((byte_pointer) tx r sizeoftint)) 

12 printf ( 11 ux 

13 show_bytas((byte_pointer) &ux P size^E(unsigned ))； 


%d：\t 


sx ); 




USX; 


X) 


■ 

景 


%u ： \t', ux); 


在使用二进制补码表示的 32 位大端法机器上运行这段代码时，将会打印出如卜输出 


-12345: cf c7 

53 m : 

-12345 
53191: 


sx 


cf c7 

ff ff cf c7 
00 00 cf c7 


USX 


X 




w 

■ 


ux 
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我们看到，尽管 -12 345 的二进制补码表示和 53 191 的无符号表示在 16 位字长时是相同的， 
但是在 32 位字长时却是不同的 。 特别地 ， 12 345 的 1 六进制表示为 0XFFFFCFC7, 而 53 191 的 
十六进制表示为 OxOOOOCFC7 & 前 者使闬的是符号扩展—— 16 个最髙有效位 1 ， 表小为十六进制就 
是 OxFFFF , 被加作尸头的位，后者使用16 个 0来扩展，表小为 f 六进制就是 0 x_ D 

我们 如何此 明符号扩展工作得正确呢？我们想要比明的是 B 2 T w , k ([ x w 

x 0 ]), 这电，迮左手边的表达式中，我们增加了 的副本 . 

证明是对 it 进行归纳。也就是说，如果我们能够证明符号扩展一位保持了数值不变， 那么符 号扩展 
任 t 位都能保持这种属性 。 因此，证明的任务就变为了 

用等式 2.2 展开左甲 边的表 达式，会得到 


*■ ，々 ■ ， 心 -1 t 2, 


狗 J ) 


B 2 T w ([ x vf .i 


x w 




B2TJ[x w . ]7 a 


，动 


^ o 3) 


■，I ^ 又 W- 1 ， * 


W-i 




iv-2 






1=0 




i =0 


& 士 


fyW-\ 


= _ W 


[=0 


= B2T w ([x w 

我们使用的关键属性是 l + Z"- 1 = -2^因此，加上一个权值为_2〜的位和将-个权值为 -2^ 
的位转换为一个权值为 2 V | 的位，两项运算的综合效果就会保持原始的数值。 

值得一提的是， 从-个 数据大小到另一个数据大小 . 以及无符号和有符号数字之间的转换的 
相对顺序能够影响一个程序的行为。考虑我们前面那个例子的如下额外代码： 




1 unsigned uy = x ； /* Mystery! 


3 print£t M uy 


iu:\t’ L f uy )； 

4 show_bytes[(byte^pointer) &uy t sizeof(unsigned)); 


这部分代码产生如下输出 


4294954951r ff ff cf c7 


uy 




这表明表达式: 


(unsigned) (int) 


/， 4294954951 V 


sx 


和 


(unsigned] (unsigned short) 


53191 V 

产生了不同的数值，即使原始的和最后的数据类型是相同的 3 在前一个表达式中，我们首先将16 
位的 short 符号扩展为32位的 itit， 而在后一个表达式中执行的则是零扩展。 


SX 



絲习通 2.21 

考虑下面的 C 函数 r 


int funi(unsigned word) 


return (int) ((word 


24) 


24); 


<< 


>> 


int fun2(unsigned word) 


return ((int) word 


24} » 24^ 


<< 


假设在一个使用二进制补码运算的32位字长的机器上执行这些函教 9 还假设有符号数值的右移 
是算术右移，而无符号数值的右移是逻辑右移 & 

A . 填写下表，说明这些函数对几个示例参数的 结果： 


fun|{w) 


fun2(w) 


w 


127 


12S 


255 


256 


B . 用语言来描述这些函数执行的有用的计算 


2.2.6 截断数字 

假设不用额外的位来扩展一个数值，我们会减少表示一个数字的位数。例如在 Fill 的代码中 
就发生了这种情况： 


1 int 


53191 ； 

2 short sx 二 (short) 


X - 


产 -12345 */ 
产 - 12345 */ 


X; 


y 


SX ； 


在一台典型的32位机器上，当我们把 A 强制类型转换为 short 时，我们就将32位的 im 截断 
为了 16位的处 orthn , 就像我们前面所看到的，这个16位的槙式就是-12 345的二进制补 码表‘ 

当我们把它强制类型转换 [ Hfint 时，符号扩展把高16位设置为】，从而生成12 345的32位二进制 
补码表示。 


当将一个 w 位的数 Kjc 


和]被截断力一个 fc 位数字时，我们会丟弃高位，得到 

，々]□截断一个数字可能会改变它的值——溢出的一种形式6我们现在来 

研究_ K 什么数值将产生这种情况。对于一个无符号数字1截断它到 A 位的结汜就相当 f 计算 
mod 2 \通过应用模运算到等式 2.1 就可以看到： 


w-W 乂 


一个位向量 


■h 私-1、 


■ + ft 



怵 S ： 的札示和 




]：1 mod 2* = 

l . i ，。 

>-L [ 

=mod 2 W 


石 1 h *， 上 v I ， ■..*__ J 


oiod 2 


zw 




在 ii 段椎# 中.我们 利用了 _性1 对 F 任何 以. 2 1 fi>Dd ^ = M s J ^ 2 ' ^ - ' < 2 I 

对 r 今二进制补叫 t 字 I, 相似的推？ fi 表明 Btr w t\^ w' 為 Ih 

s uU 也齔岛 I jciwd 浐晚 _» —个位 as 示为的无挎 § 数表示，不过 
将4 断的 軚字视 •■>■■ 有符 q 的. 这将珲靶钕 ffi tm；(r _ 

总而宵 之^ 截妒的 '结 * ( Hi " 所樣； 

fi - i/i In jsj ^ j,l . - m ] 


3" = w ' 

ttn mfi 


? (/響 I [^ h-i 卜 ■■' / L '.| ) TH s Xl 2 

沉 [JV %i^ rr i ^] * m (k w". mfld /) 


an 




t 2.8) 


诳 iSt 我们 犄一个 U 乜軚值 （fl 十六进 制教字 o-F 表亲 I 我晰到一个三位 搋值彳 珣十六进制数 
宇0〜7良示），稂写 卞表， tMl 那些位氆式衿无杵号和二进 碟表示 

的 J*i F 


兄明这钟数 fi 衅莱母 鲭乳 


91 I 


+ rti|fc 


无符 . 


二进 Wfrii 


Smm 


#值 


sa 


tmm 




0 


Q 


1 


B 


A 


LD 


■& 


!f 


IS 


等式 2.7 和 3 JI 是如何应押纠达在古倒土的』 

2.3.7 关子有符号戣与无符囀教的®议 

㈣ 我鍾舰哪，浦相慨的馳1»$關财狀!?01 了 V . 的时不相 ㈣ 
ff 为- 而这荇与 ft 觉不相符的恃性睜常 昏玆 苒呼研误.丼 M & 含鼉式强制类1钴換的抱微差别的 
说叹叫 < n 袪发现，断为这和迸钊类咽转換进#不到我 m 钤常忽 视丁它 的影 _■ 

mm 2.23 

- iaV ^. r lMiM 料4!、 h「Vi JfJ % 

^ ■* 下 w 代 l iyt 代碎试田狀雌 ■ 中断有先 t 的 K 其中 W 的獄責 lb 参#; 誇 ih 








1 /* WARNING： This is buggy code */ 

2 float 


elements(ft oat a[], unsigned length) 


sum 


int i; 

float result 


0； i <= lengt.h-1; i4 + ] 


7 for (i 

8 result += a[i]; 

return result ； 


9 


10 } 


当运行时参数 length 等于零，这段代码应该退回 0.0。 但实际上，代码会邁到存储器 （memorj ) 
错误，请解释为什么会发生这样的情况，并且说明该如何修改代码， 

避免这类错误的一种方法就是绝不使用无符号数。实际上，除了 C 以外很少有语言支持无符 
号整数。很明显，这些其他语言的设计者认为它们的麻烦要比益处多得多 □ 比如， Java 只支持有 
符号整数，并 ti 要求以二进制补码运算来实现 t 正常的右移运算符>>被定义为执行算术右移□特 

殊的运算符 >>> 被指定为执行逻辑右移9 

当我们想要把字仅仅看做是位的集合而没有任何数字意义时，尤符号数值是非常有用的。例 
如，往 个 字中放入描述各种布尔条件的标记 （ flag ) 时，就是这样。地址 ft 然是无符号的，所以 
系统程序员发现无符号类型是很有帮助的。当实现模运算和多精度运算的数学包时，数字是由字 

的数组来表小-的，无符号值也会非常有用。 


2.3 整数运算 

许多刚入 n 的程序员北常惊奇地发现，枓个 if . 数相加会得出一个负数，而 fi 比较表达式 
和比较表达式 H <0 会产4」不同的结果。这些属性是计算机运算的有限性造 成的。 埋解计算机运算 
的细微之处能够帮助程序员编写更 W 靠的代码。 

2.3.1 无符号加法 

考虑两个非负整数; r 和 y ， 满足 0 每个数都能表示为 w 位无符号数字 □ 然而， 

如果我们计算它们的和，我们就有一个可能的范围 Of x + 表示这个和可能需要 w +1 位 6 

例如，图 Z 14 展小了3^和？有四位表小时，闲数 T + y 的坐标图 ，参数 （显示在水平轴上）取值 
范围为0〜15,但是和的取值范围为0〜30。函数的形状是_ A 有坡度的平面。如果我们保持和为 
一个 w +1 位的数字，并 J 1 把它加 上另外个 数值，我们吋能需要 w +2 个位，以此类推。这种持续 

的“字长嘭胀”意味着，要想完整地表小算术运算的结果，我们不能对宇长做任何限制。一些编 
程语例如 Lisp , 实啄上就支持无限精度的运算，允许任意的（当然，要在机器的4储器限制 
之内）锒数运算。更常见的是，编程语言支持固定精度的运算，因此像“加法”和“乘法”这样 
的运算 + N 于它们在整数丄 的相应 运算。 

无符号运算可以被视为一种形式的模运算。无符号加法等价 f 计算模 2 W 的和。可以通过简单 
地丢弃; c + j 的 w +1 位表示的高位，来计算这个数值。比如，考虑一个四位数字表小， x =9 和产12 
的位表示分别为 [1001] 和[11001。它们的和是21，五位的表示为 [10101 L 但是如果我们丢弃最高位， 


x<v 



电的 氣示和 处3 


5J 


雜 ] _ 鼻 1SL 十 a 侧 t 的 S, 这 _ 和值 2U Ic kJ 
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2 t 


19 -K" 


Jg 数加法 


对 r — 令内位的 t k . h 和 _ E » 睿五 p 


+ 1 




軸 




X 


a 丄 


1 ， 1S SMJni 法 ft 无符号加法问的关系 


• T』，A f 2 _-l 时 ， XAttfllili 


一拟而亩，我们可以 导到 , 
它不会 改变这个*[值 


和的位在不巾的 M 鴒份会 ff I因此丢弃 

Irtlft 表示申的■窟位会寒于 I , 

趄会得到一个0^；!^：^ 2"< 

2_-2 r_ar 屮 wmM 于 jc 每？的和 .Dui 樓 rtt #** 让未电戈参歡眾和^ 的运算 +' 

ia . IO ^ j r > cl % APT ! ■" 


方 Ito_ ttr^J hP £< + J ：<Z l ^ l i ^ 

此上邦它就相当子从#中喊瀣12' fU2.)!( 说碉了这两 |+ 慵 & 


Ini 


I 


m + y < 2 h 

^ + y-2%, m + j«<2 


J £ + 


y 


(2.9) 


*■■ I 






















iiiElFS 在 C 屮技个 *位£ 符号 ft 值如法 时我们 拇到的 钴果， 

说 一个锌 水远 f 湞出了 a 是術究«的® Rffl * 不眭 放到& 据类 f 的字长限制中 A , 如3?武2.9 

卿， 当 W 个 S 算 ft 的和为 2 T 咸#1 大时, US 生 rfilL ffl 116餍示7字长为4的圮符 -4 加法 
由数的世 iiftL 这个取 it 按描 t =) b\i 1的■当 

应子 ffl 中私 M 力 H Eft " 

fk 中赛 la 为 j aa ^ 的斜吋. 

^ trc ^ it , 摹会栴澧出作为 ffiiSniK 值号_不过 fj 的时钱.司谁希1 判定趁 并发 

生了溢出* ttJKr If JittflJ ® eWJt f m^f jt -^- 投们声称 3 HJI 爸 

(或 t 筠份她批>_>时， S 生 fiifttU 资#明白这一点_请汴因此如祀 sS 仃溢出， 

mnmw 只一方妃，铂果实维 由了， 我 n 就有 pj 4 厂2\個改 >.< t , 抿们味任 

y <^< 0- WJtj = i + jr - r < j . 孔 我们前 面的豕侧中，我督]*蒯94^=5. 既然 3rf . mix 

邮以#出发生了 ifitfk 


没有溢出， ^\[ x +： y m ^ y - 这対 

f+y& lfi 对,加法 tt 出,法采相当矛从和中裱去 W， 这埘19 


Jt+\<lk 


jy 


i <* 


t 符崎加辻 


16 


IS 


Id 


itiHttm 她 m iti 


栢想 JD 袪形成 / 一种数学從抅，槔为阿 54 尔 H l Abelian gr^up). 这是以丹慶效学 ; j! 

Abel ( JEU 2- LK 29) 也鏞说 ■ t « i:J 定供的（这就达为叶么叫 - Abdien " 的煽方) 

和可味仓的， 它有一个 坪且* i 个元#有一个加祛迚元， it 我们芩巇这汴-仲 ff 位 
m 无笱号敗的盥侖. 


N^l tt:mk 


对 f 钲个憤 h 必然有乐个拥足 jr - a - 当 


■ 












I 的表 十和 处牙 


n 时.加法逆 jts 热 s 仏狹们规寮到这个 K 乎在葙 w 

f aii ： + 2%I3awd TmTmoi 2^ =0, 由此. 它 BEftj 在 += 心的逆元 - 技两种，况竑导出 
了对子 os^r 的；忒】 


j - 


A 


■_2 .mi 


2 m x 4 x>Q 


miM 22 A 

我们# tfl — 个十 friit 制歡卑朱表千虼度咕 4 終 泣孃太_ 时子速 些敦守的尤符 f 解样.便用 f 式 
2 Jfl 填与下氣.飨出听丰敬字妗无符考加法逆元的鉍表* <用十六进屮影式》 . 


+nm 


-Am 


:抑 


I nA * 


0 


a 


^2 二迸制补码加法 

对 F 二进制补码仙挪有费刪 Hfi . 给定在范 m 

TJ 的和 t 在赵田 -^^；^7 3 3^1 内， ••m?tffiw+l« 宋农士 ■ It 们通过将表禾 

flifi 到 ㈤ 位，朿避免数据太小的扩张 __ m, 钻哄在 歡，上却不除梭敗加 法 * 样， 

ft 个数的 h _ iv ■■一 进制补码之和《1无符 q 之 翁1紐主 全柑冋的位绪表忝， tm : 




大多数汁算机使 

W 冋忭的#1_桁令来执汀无狩号戎舒有符4加枯*囚此 ■ 我们场栝 3t 义宇长为 IV. 妳二进制朴 BS 加法, 

在运锌 v 見 #r y 1■灰示 m 足 -r ■ k 貧 s 2' 


U 2 Tjmjj )+ lTWJ ^ 

抿 W 等式2丄■^们可以把 TJEUI 内成 J ^2% h ^ m ^ i & y ^ + y . 使 M « 性， 
m r ^ m . 以 及镇數 加法的厲性，我们毓能衍剡， 

^+1 y =的 l 的£/,(川；1『2£^州 

U2T m .\[ ■〜|2 b ■+ jt + -^ i 2^' + m ( si 2^] 

ifilft 了 i ^ r 和|^_浐这两項 ■ B 为它们 _2 T 等于 a . 

为; r® 好地拥 «这个数暈 ， it 狀们走 文 ？ 为》&和|=^”，/为/七 
^ muir H U ), ttft/ 争 fj + l ，. : tiismi 示， 

ft 扪将有/■#2\ iitwn5 0sv^-r 3 +r=2 M , 


J +. ¥ 


(2. I 1 J 


n 




r 


为 

















5 H 


们妇 SU ' 在調足/ 的鉞 ffl 之内 _ ii 忡棉况被称为 ftjtjij t rwgatiw wcrfSow >* 我们将 _ 个 fl 敢』 

和 y 相加(这 AIMT 灌得_! <-广 1 的惟一方式>,得到一个# &的 

2.-2^ S ^ O . 那么，孜 tfj 又梅有 m \- 2 ^+ 2 ^ 2 " H /< 2 \ 检也等式16, tlf 沾 
到 y 在扇足/邏^ 2 r 的泡 is 之内， mkir =^- r = i ^ r ^ rmu 也欢 m 投们的二进制件硏和 〆 
等于 相* [客*十> 

ios ：< r ~', jjsi , t 们将 n /= z , m \(} iz <2 

4-2—£ = <2 | %11 么『 5^ 又将有 /* 心得利广 | 以 <2^ 铜是在这个 _ 围内 , 我们有， =/-2' 

mrmj ^ rr . 这种情»被称为慕遒 a ftfl 将正 ttjrWy 相 in (也濉我|] 
能愤一方 式》， —个 


因 itrii/_u "： a 制?卜 w 和，又零 


je + V -2 


p — 」 


y 




ti \ 


博况 4 


+r 


+ 


m 
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_sn 
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■浐 


^■2.17 sit 和二迸 _ 补巩加法之 _ 的关系 

产生 ftifclL 电它*乎 r fc tl« r 


m^l ill 的分析，我们可以给出当对在范 .RK 1 ^ 1 s t. JS2- 1 "! 之肉的 
战们有下 fiifr 的式 h 


Y ^ lti £ S< B M , 




■ 2 ' r a Sf+7 

. 正 ？ tt 
jr + y + r , f+y w 


腿出 


X + ¥ 


x + m [ 


12 . 12 ) 


v 


x + ¥ 


负通出 


作为 轚明 

f 笱式 JJZ 的掄好 U：6 中的情 R 

韵利的结? ii 比之小 ih imt ! 包栝了 sir 敗和访钯钓位议表孕，我们 pj 以現_到 3 t 够1过对込算 
® 汍行二这 制加注 并柙结果 m 味到 m 位.从 m 得 u 钴I， 

2」9«|述广宇长》^4的二进’制壽网加怯，运 #* [釣 ■■ 为 -S-T 之间- ^ x+j <- eit P 
二 IttW 补码加法就会犰 AH |. 导致 Wf 加 T ^ + 

俛榑和 a 少了 _6_这三种情况中的拇一坤柿衫成中的一个斜曲， 


2 ja 職示了 •些网位制朴蚂 In 法的示倒，每个承例 mwaffi 被标吁为时 ffl 

2 4 =16, 负 ttU 得》的_果比 ttM 大16, I ! 正遒出 


1£ 


Ki 

















W 息的表示和 # til 




等式 Lii 祖 t 娜出 T9Sm F # 发生癉 

Htt 会 n«mii 出 , 当 ^ 和 >_ 是正 » 


ftl y Wltift'Kii IE 趋 __< >>2 Q 时 ， It 
»i+Lj<o 时 . » 们会 «1 _正級出 . 


1 


r 






M 


-s 


-II 


Iimoi 


I 糊 I 


icoiil 




[ I 他 I 
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[ Ol > DI | 


EIC 1 J 
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1(1101 


mm 
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i I 剛 I 


mm 
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ffi!2-lfl 二进 W 补码加法示制 


a : 




Fi 出 


S 2_ P 二进制朴興抝法 

H . Hit 全产时 m 自 4 j + y 3 eH i 产穿關 ft + 


^^ ftn & hPRT . 当 




味习 H 2.25 


桉㈣ 格蛛 ■表. 请玲 Ailj: 参教的 Stlt 值，训㈣教知二进鋪^㈣截瓜 
二进 W •朴叫和的位级表 


«及押41孑武2-12*争的情4 


不、 
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况 


y 






[ 10000 ] 


[ 10101 ] 


[100001 


[i 




111000] 


[ Win ] 


[ li 闊 


[00101] 


[ 01000 ] 


[OIOOOI 


2 么 3 二进制补码的非 

我们可以#到范围 -2 U 5_ r <2 w l 中的每个数字 s 都有+1 F 的加法逆元： 苜先 ，对子 0-2^ 
我们可以看到它的加法逆元就是 - I 也就是，我们有 -2 M 
面，对于 j =-2 u = rMt > t w ， 

它在 +L 下的加法逆元。 -2 

这得到 -2^4.-2 

一进制 补码的 I 卩运算 (negation operation ) 如下： 


< 2 M_I 和 - ; r+l jc = _ jc + = Oo 另一方 
= 2^ 不能被表示为一个 w 位的数。我们声明，这个特殊值本身就是 

的值由等式2」2的第三种情况给出，因为 _2 W 1 + -2 
= -2、2"=0。从这个分析中，我们可以定义对于范围 _2 2 、 k 2 w] 内的 


< ~x 


一义 


扣 fl ■ t 


=_2 


Xi 


1 




jc = -2 


JC 


(2.13) 


jo -2 1 "" 
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练习鼉 2.26 

我们可以用一个十六进制數字来表示长度 vv=4 的位模久，对于这些教字的二进制补码的解释, 
填写下表，确定所示数字的加法逆元， 


小 


十六进® 十进制 


十进制 十六进 W 


A 


F 


对于二进制补码和无符号（练习題 224) 非 (negation ) 产生的位糢式，你观察到什幺? 


一种有名的用来执行位级一进制补码的非 (negation) 的技术是，对每个位取反（或取补），然 
沿将结罘加1。在 C 中，这可以写成为了验诎这种技术的正确性 f 可以观察，对 T- 每个位 h 

设 i 是一个长度为 w 的位向量， 


我们有\ = I 
式 2 . 2 , 取反了的位向暈 1 有如卜数值 


扣心⑺是它表小 : 的_:进制补码数 。 根据等 


-X 
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B2T w {-x) ^ -UU2H + XU-JC# 


1=0 


w-] 






-2 


-X 


= [~ 2 w ~ l + 2 W } -]]- B 2 TJX ) 

=X 


上述推导中，关键的简化是 

要将位级表示为 
这样 i 就具有这样的形式 

0, …， 0]。对于 I 的位级表示为 [1, 1,…， 1】的特殊情况，将 incr (支)定义为 [0, …，01。 为了说明 ino ^ i ) 
得到的是 j + y 的位级表考虑下面的情况 r 

K : [ U t …， 1] 时，我们有 ;c = - L 被增加的值 incrU ) M 0， …， 0] 有数值0。 

2. 3 fc = iv - 1时，即 . 010*1/.、1】时，我们有 jc =7 M ^。 被增加的值 incr ( jf )=[ l ,0/、0] 有数值 

从等式 2. t 2 t 我们可以看到:是正溢出的情况之、得到了如〜。 

3. 当 JUw -1 时，也就是 rU 式 -1 时，我们口丁以看出 incr ⑻的低 Jt + i 位有数值 


= 2^ l - l . 只要将1加1，我们就能得到 - j 了 


，: cd 的数 x 加1，将运算 incr 定义为：设 i 为最右边的 0 的位置 
■， jc t +1 ,0, !，•■•, 1 U 然后 t 我们将 incT ( i ) 定义为 b 


■-h ^ 屮 -2 ， 


W.. ， A + 1 ， 1 


■ 2 , 


H'-l t 


k-\ 


位的数值为=2^1。它们的高 vv - JUl 位有相同的数值，因此， incr < i ) 有数值 


而 jf 的低 fc + 1 


j =0 


a :+ K 此外*对于对 Jt 加1不会导致溢出，因此 x + J ^ l 也等于 jc +1。 

iF 如说明的那样，图2,20展小 f 取反〔或取补）和加1是如何影响几个四位向量的数值的。 


incr( x ) 


x 


X 


[010 J ] 

[01111 

[ 1100 ] 


[10101 

11000] 

[ 00 ] 1 ] 

[ 1111 ] 

[mill 


-6 


[10111 

[1001] 

[ 0100 ] 

[ 0000 ] 




-8 


4 


ms 


flOOO] 


-8 


[10001 


-8 


Z 20 取反（或取补）和增加四位数字的示例 


效果就是计算二的值的非 s 


2.34 无符号乘法 

范围0 d 0 2 h ， 1内的整数 I 和 y 叫以被表不为 W 位的无符号数字，但是它们的乘积 r J 的 
取值范围为0 〜 (2 M )、2 2^+〗之间，这可能需要 2 w 位来表；^不过， C 中的无符号乘法被定 
义为产生 2> v 位的 整数乘积的低 w 位表示的值。根据等式2+7,我们叶以看出这等价于计算模 2 W K 
乘法 D 因此， w 位无符号乘法运算 <.的效杲为 


tU w y- (jc' y)mod 2 W 

人家都知道模运算形成了爪因此我们可以推出 w 位数字上的无符号运算形成了环 〈{0, 


( 114 ) 


X 
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, o, 1 〉 。 

2,3,5 二进制补码乘法 

范围1 '<^ j < 2 wl - l 内的整数 x 和 y 町以被表示为 w 位的__进制补码数字，但是它们的乘 
积^乂的取值范围为力"- 1 ^^- 1 -!^-]〜-。^ 1 〜#- 1 .#- 1 : 2 2h _ 2 之要想用二进制补码来 
表小这个乘积，可能需要 2 vv 位——大多数情况下只需要1 位， 但是特殊情况2 2 "- 2 m 2 w 位 C 包 
括一个符号位0)。然而， C 中的有符号乘法是通过将2冰位的乘积截断为 w 位来实现的。根据等式 
2.8, w 位的二进制补码乘法运算 <.的效果为： 


y = U 2 T^(x - y ) mod 2 W ) 


(2,15) 


我们认为对于无符号和二进制补码乘法来说，乘法运算的位级表示都是一样的。也就是，给定 

长度为 w 的位向 

⑻的 位级表示相同 & 这表明机器可以用一种乘法指令来进行有符号和无符号整数的乘 


无符号乘积 B 2 V w [^K S 2 U w ( i ) 的位级表示与二进制补码乘积 


和5 


yy 


1 


法。 


为广看清这一点，设 ； c =52 r w ( jf ) 和 y = S 2 L ( j ?) 是这些位模式表小的二进制补码值，而 
/ 和 / = B 2 t / w (0 是这些位模式表示的无符号值。根据等式2.3,我 C 有 x ^ x ^ 2 w 

和/= ^3^2' 计算这些值的模 2 W 乘积得到以下结果 ： 

(/ /) mcxl 2 w = [( x -^- x w ^ 2 w ) - ( y-b y ^ 2 w )] mod 2 ^ 

=[x y - i - ix ^ y ^ y ^ x )! 

=(x - mod 2 W 


A - 〆 1 "] mod 2 


(2.16) 


因此 t jc ■ y 和 / ， ; /的低 iv 位是相同的。 

正如说明的那样，图 2.21 展示了不同的 F 位数字乘法的结果 t 对于每对位级运算数，我扪旣执 
行无符号乘法，也执行有符号乘法。注意，无符号已截断乘积总是等于 jc j mod 8,而且两个己截 
断乘积的位级表示是相同的。 




裱式 


尤符号 


二逬制补码 




S 符？ 


"进制补码 


无符号 
二进制补码 


图 2.21 三位无符号和二进制补码乘法示例 

虽然完整的乘积的位级灰小玎能会不同 f 但是 d 截断乘积的位级表示是相同的 + 

孅匁雇2,27 

填写下表，说明不同的三位数字乘法的结果 t 按照图 2 . 21 的 风格: 
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m 


截断的 x-y 


无符号 
-进制补码 


[ 110 ] 


卿] 


[ 110 ] 


10101 


无符号 


[ 001 ] 


i ] ll ] 


二进制补妈 


[ 001 ] 


[1111 


尤符¥ 
二进制补码 


LH11 


訓 


[mi 


[ 111 ] 


我们可以看出， W 位数字上的无符号运算和二进制补码运算是冋构的——运算+ 

义、4有相同的位级效果。据此，我们可以推断出一进制补码运算形成了环 （卜 2” 1 ，…, 


和 


0,1 


2.3.6 乘以2的幂 

在大多数机器上，整数乘法指令相当地慢，需要12或者更多的时钟周期，然而其他整数运 
算——例如； m 法、减法、位级运算和移位——只需要1个时钟周期。因此，编译器使用的一项重要 
的优化就是试着用移位和加法运算的组合来代替乘以常 数因苄 的乘法 n 

设; c 为位模表示的无符号笹数。那么，对于任何 fckO , 我们都认为刃 fr 的位级 
表示是由 


，& 0,…, 0] 给出的，这里右边增加了 Jt 个0。这个属性可以通过等式 2.1 推导出 


A -2, 


来 r 


， 0 ,…屬=义 2 〖 + " 

i =0 

V ] 




■2 女 


iM) 


2 k 


x 


对于… ， 我们可以将移位了的位向量截断到长度 W T 得到…，0]。根据等 
式17,这个位向量的数值为 
V X * pwr 2 kr 这里 pwr 2 k 等于 2 k 。 特别地，我们可以用 ] U«k 来计算 pwr 2 k 。 

通过类似的推理，我们可以给出，对十一个位模式为 2 ，…，知]的二进制补码数 JC ， 以及范 
0 5大<冰内任意的 fc ， 位模式 [' 

于冇符号变暈 X ， C 表达式 x « k 等价于 Ppwr 2 k , 这黾 pwr 2 k 等于 2 k 。 

注意，无论是无符号运算还是二进制补码运算，乘以2的幂都可能会导致溢出。我们的结果表 
明，即使溢出的时候.我们通过移位得到的结果也是一 枰的。 


2、因此，对 f 无符号变量 x ， C 表达式 x « k 等价 


0,…，01就是1=^^的二进制补码表示。因此，对 


a 


- k-U 心工 0 , 


EJ 


练习鹿 2.28 

就像我们将在第3章中看到的那样， Intel 兼容的处理器上的 leal 指令能够执行 a « k + b 形式的 

计算，这里 k 或者等于0、1或2,而 b 等子0,或者等于某个程序值，编译器常常用这条指令来执 
行常数因子乘法 4 例如，我们可以用 a « l + a 来计算 3 h > 


用这条指令可以计算 a 的哪些倍数? 


2.3.7 除以2的幂 

在大多数机器上，整数除 法要比 整数乘法更慢——需要30或者史多的时钟周期。除以2的幂也 
可以用移位运算来实现，只不过我们用的是右移，而不是左移。对7*•无符号和一进制补码数，分别 
使用逻辑移位和算术移位來达到口的 6 

整数除法总是舍入到0的。对 】 0 和> 结架会是丄这里对于任何实数 a , Ld 定义 

为惟一的整数 Y ， 使得例妇， L 3 + 14 j =3» L _ 3.14」= _ 4和|_3」= 3。 


考虑在一个无符号数上执行逻辑右移的效果。设 x 为位模 x 。] 表示 的无符 号整数 
而 k 的取值范围为0 U <叫。设; C ' 为 >v -fc 位表 


， Al 的无符号数，而/为 t 位表示 




hM 


抑] 的无符号数。我们有/ = Lc /2 M 证明 如下： 根据等式2丄我们 


I 


I 


k 




x = 


x 


JT : 


和 

此0</<2\ 这意味着 L //2 M = 0。 因此， \ jd 2 k \^Vx + X M a k \^ xVxm k \^ 

可以观察到，对位 M 暈逻辑右移 Jt 位会得到位向暈 

10 ,…, 

这个位向量有数值也就是，将•个无符号数逻辑右移 it 位等价于把它除以2 4 。因此，对 f 
X 符 号变量 x ， C 表込式 x » k 等价十 x / pwr 2 k , 这甲 ■. pwr 2 k 等价于2、 

现在考虑对一个一进制补码数进行算术右移的结果。设 x 为位模式…， W 表示的二进制 

设/为 W - fc 位[:^4, W -，_ Tt ] 表小 的一进 制补码数，而_/为 
低/:位知二句]表示的尤符号数=通过对; t 符号情况的类似分析，我们有1=27+广向0< 

得到 ix /2 k \. 此外，我们可以观察到，算术右移位向量 [I 


k -[ 


tc 


可以视察到 = H 


2 l = 2 k - 1 ，因 


^；2 E D R 此，我们可以把 x 写为 x =2 


JC +X 


o 


(=0 


X 


， 4】 


补码整数， [ ftu 的取值范围为 (Hit 


< Wu 


<2 


x 


A ] it 位，得到位向贵 


1 ， 


ki 小…， 


^1 


If*. 1 ， 工 +.-l ， -^n , -2? 


它刚好就苋将 [X 
的二进制补码衣尔。 

对于我们的分析表明这个移位的结果就是所期望的值 & 不过，对 f 3<0* T v > O f 整数 
除法的结果应该 Mrt / yl , 这书■，对于任何实数山1^1被定义为使得 7-1 的惟整数 《 f 。 也就 

是说，整数除法应该将为负的结果向上朝零舍入 D 例如， C 表达式 -5/2 得到-2。因此，当有 舍入发 

生时.将-个负数右移 A 位不等价于把它除以2、 例如， 4的四位灰小为 [1011], 如果我们将它算 
术右移位，我们得到 [1101], 这是 -3 的二进制补码表示。 

我们可以通过在移位之前“偏置 ( biasing )" 这个值，修 iK 这种+合适的舍入。这种技术利用的 
是这样一人属性：对于整数 Jf 和有>.>0的>、 [ jc / v 1 = L ( a ： + y - l )/ yJo 因此， 对 f JC <0, 如果我们在 

右移之前，先将^加丄/- I ,那么我们就会得到正确舎入的结果了，这个分析表明对使用算术右 
移的二进制补码机器， C 表达式 

( x <0 ? ( X ， ( l « k ) 

等价于 x / pwr 2 k , 这里 pwr 2 k 等于2、例如, 5 除以2,我们先加上偏 1 数 2_1 = 1,得到位模式 [1100] 


W 从 w - fc 位符号扩赌到 w 位。因此，这个移位，的位向量就是 U 4」 


X 


w-2. 


1 ) : x) >> k 
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将这个值算术右移1位得到位模式 [1110], 这是 -2 的 二进制 补码表 


碟习腰 2.29 

在下面的代码中，我们省略了常數 M 和 N 的定义 


^define M / * Mystery number IV 
#define N /* Mystery number 2 */ 

int y) 


int arith(int 


x 


f 


int result = 0; 

result ^ + y/N; /* M and N are mystery numbers* */ 

return result; 


我们以某个 M 和 n 的值编译这段代码。编译器用我 们讨论 过的方法优化乘法和除法。下面是 
将产生出的机器代码翻译回 c 语言的 结果： 


/* Translation of assembly code for ariih */ 

int y) 


aptarith(int 


in : 


x 


i 


int 匕 = 

x <<= 4; 


x ； 


t ； 


X 


if (y < 0) y += 3 ； 

2； /* Arithmetic shift */ 


y 


»= 


return x+y ； 


M 和 N 的值为多少? 


练习龜 2.30 

假设我们在对有符号值使用二进制补码运算的 32 位机器上运行代码。对于有符号值使用的是算 
术右移，而对于无符号值使用的是逻辑右移。定量的声明和初始化如下： 


int x 二 foo () ； 
int y = tar (1; 


"Arbitrary value */ 
/* Arbitrary value V 


unsigned 

unsigned uy 

对于下面每个 C 表达式，或者证明对于所有的 x 和 y 值，它都为真（等于1 )，或者给由使得它 
为假（等于 0) 的 x 和 y 的值： 

h, (x 0) II (12*x) < 0) 

B. (x & 7} U 7 II (x«30 < 0) 

C* fx * x) >= 0 

D. x < 0 I 

E . x > 0 M 


UX - X ； 


Yi 


-x < = 


-x >= 



G. , x*y - uv^llx 


2.4 浮点 

浮点表小卞形如 V=x*2 v 的有理数进行编码。它对执行含有非常人的数字 （IV1»0)、 亦常接近 
fO (IVI«1) 的数字，以及更普遍地作力实数运算的近似值的讣算，是很有用的。 

直到20世纪80年代，每个计算机制造商都设计了自 d 的 喪小浮 点数的规则，以及对浮点数 
执行运算的细令。另外，他们常常不会太多地关注运算的精确性，而把实现的速度和简便性看得 
比数字精确性更重要。 

大约在1985年，这些情况随着 IEEE 标准754的推出而改变了，这是一个仔细制订的表示 
浮点数及其运算的标准。这项丄作是从1976年 Intel 发起8087的设计开始的，8087是一种为8086 
处理器提供浮点支持的芯片。他们雇佣了 William Kalian 加州大学伯克利分校的位教授，作 
为帮助设计未来处理器浮点 际准的 顾问。他们支持 Kahan 加入一个 IEEE 资助的制订丄业标准的 
委员会。这个委员会最终采纳了一个非常接近于 Kahan 为 imd 设计的标准 e F1 前，实际上所有 
的计算机都支持这个后来被称为 IEEE 浮点的标准。这人大改善了科学应用程序在不冋机器I,的 
nj 移植性。 

旁注； tE€E (电气和电子工程师协会） 

电气和电子工程师协会 ( IEEE 一渎做 TTriplbE ") 是一个包括所有电子和计算权技术的专血 
团体 • 它出版刊物、举办会议，并且建立协会团体来定义标准，内容涉及从电力传搶到软件工程. 

在本节巾，我们将看到 IEEE 浮点格式中数字是如 M 被表示的.我们还将探讨舍入 (rounding) 

的问题，3—个数字不能被准确地表小为这种格式，因此必须被向 L. 调皓或 t 向下调整时，就会 

出现舍入 3 然;^我们将探讨加法、乘法和关系运算符的数学鼷性。饤多稈序员认为? f 点最没意 

思，而 F1 最深奥难憚。我们将看到 f 因为 IEEE 格式是定义在一组小而致的原则上的 T 所以它实 
际上是相当优雅和容易理解的。 

2.4.1 二进制小数 

理解浮点数的第一步是考虑含有小数值的二进制数字 a 首先，让我们来看看更熟悉的 I- 进制 

表小法 D f 进制表示法使用这样形式的表小 d 人'… dAi ' d- 2 “-d 其中每个 H ® 制数必的取 

值范围在0〜9之阆。这个表达式描述的数定义如下 3 


2>呌 

l--n 

数宇的权被定义为和十进制小数点符号“，相关，这意味着点左边的数乎的权是10的幂， 
得到整数值，而点右边的数字的权是10的负幂，得到小数值 □ 例如，12.34 1() 衷小数字 

Ixl0 1 + 2xl0° + 3xl0 ] +4 xI0" 2 =12 


d = 


34 


100 


类似地，考虑一个形如如…\的表 示法， 其中每个二进制数字，或贵称为位 
以的取值范围是在0〜1之这种表示方法表示的数6定义如下： 
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(2.17) 


i=-ii 

符号“/现在变为了二进制的点，点左边的位的权是2的 E 幂，点右边的位是2的负幂。例如， 


b 




101」1 2 表示数字以2 2 +0><2 1 -1父2 0 +1父2 _1 +1\2‘=4 + 0+1 + 二十一= 5二。 

2 4 4 

从等式 2.17 中可以很容易地看出，向左移动二进制小数点一位相当于这个数被2除。例如， 
101.11:. 表小数5^而 UUtl 2 表示数 2+0 +|+H = 2 l 类似地，向右移动二进制小数点一位相 


4 


当于将该数乘2。例如1011.1 2 表小数 8+0 + 2+1 + — = 11 — 


63 


注意形如 o . ii …1 2 的数表示的是刚好小于1的数6例如， aimih 表不_二，我们将用简单的表 


64 


达法 i . o - e 来表小这样的数值。 


假定我们仅考虑有限长度的编码，那么十进制符号是不能准确地表达像 i 和 i 这样的数的，类 


似地，小数的二进制表小法只能表示那些能够被写成; cxy 的数6其他的值只能够被近似地表示。 
例如，虽然加长一进制表示能够提髙近似表示数1的精度，但是我们并不能把它准确地表示为一个 


表示 


十进制 


0* 


0,0 io 


0.01 


0.25 


0.0102 


0.25 


0.0011 


,1875 


0,001102 


0. 1875 


32 


O . OOHOI2 


0.203 l25io 


(LOOllOlOi 


0.2O3125 l0 


m 


o.oonoon 


0.19921S75 
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移习顯 2,31 

填写下表申的缺失的 信息: 


小败值 


二进制表示 


十进制表示 


0,01 


0.25 


23 


16 


10」101 


L 011 


5.375 


3A>625 


练习雇 2.32 

浮点运算的不锖确性能够产生灾难性的后果。1991年2月25日，在海湾战争期间^沙特阿拉 

伯的达摩地区设置的美国愛国者导殚，拦截伊拉克的飞4腿导弹失敗。飞毛腿导洋击中了美国的一 

个兵营，造成28名士兵死亡。美国总审计局 （GAO) 对失敗原因做了详细的分析[32]，并且确定潜 
在的原因在于一个数字计算不精确。在这个练习中，你将重现总审计局分析的一 部分。 

爱国者导弹系统中含有一个内置的时钟，实现为一个计数器，每 0.1 秒就加 K 为了以秒为单 

位来确定时间，程序将用一个24位的近似于$的二进制小数值未乘以这个计数器的值.特别地，& 

的二进制表达式是无穷序列 


其中，方括号里的部分是无限重复的。计算机只用这人序列的开头位和二进制小数点右边的头 
23位来近似地表示0丄我们称这个数为X。 

A. ^rO.l 的二近制表示是什么？ 

B. jrO.l 的近似的十进制值是多少？ 

C. 当系统初始启动时 s 时钟从0开始，并且一直保持计数：在这个例子中，系统已经运行了大 
约100个小时。程序计算的时间和实际的时间之差为多少？ 

D+ 系统根据一枚来袭的的导弹的速率和它最后被雷达侦测到的时间 7 未预測它将在哪里出现。 
假定飞毛腿的速率大约是2000米每秒，对它的预測偏差了多少？ 

正常地，一个通过一次读取时钟得到的绝对时间中的轻微错误不会彩响跟踪的计算 & 反而，它 
应该依赖于两次连续的读取的之间的相对时间，问题是爱国者导洋的软件已经升级成使用更精确的 
函数来读取时问，但是不是所有的函教调用都用新的代码替换了 . 结果就是，跟踪软件使用了一次 
读取的是精确的时间，但其他软件读取的是不精确的时间 [71J. 
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2.4.2 旧 EE 浮点表示 

像前一节中谈到的位置表石法不能很有效地表示非常大的数字。例如，表达式5乂2@的表示是 
由101后囱践随100个零的位模式组成的，相反地，我们希望通过给 fej (和 y 的值， 来表形如 ;cx 
2^的数。 


IEEE 浮点标准用\^ = <-1)、沿<2 £ 的形式来表小… 个数： 

• 符号 （ sign) s 决定数是负数 （i-1) 还是正数（5=0)，而对 f 数值0的符号位解释作为特殊 
情况处理。 

• 有效数 （ significand) M 是一个二进制小数，它的范围在1〜之间，或者在0〜卜 e 之间 □ 
• 指数 （ exponeiU) £是2的幂（可能是负数)，它的作用是对浮点数加权。 

浮点数的位表氺被划分为三个域，以编码这 些值： 

• 一个单独的符号位 s 直接编码符号 

• t 位的指数域 exp = …编码指数 £□ 

位小数域 fmc =/w …//。编码有效数 M. 但是被编码的值也依赖子指数域的值是否等于零。 

在单精度浮点格式 （C 语言中的 float) 屮， s、exp 和 frac 域分别为1位、位和 / i=23 位，产 
生一个 32位的表示，在双精度浮点格式 （C 语言中的 double) 中， s、exp 和 frac 域分别为1位、 fc=ll 
位和 n=52 位，产生 ■■个 64位的表示。 

给定位表示，根据 exp 的值，被编码的值可以分成三种不同的情况。 

規格化值 

这是最普遍的情况。当 exp 的位模式既不是全为0 (数值0)，也不是全为1 ( 芊精度数值为255, 
双精度数值为 2047) 时，就都属 f 这类情况。在这种情况中，指数域解释为表示偏置 （biMed) 形 
式的有符号整数。也就是说，指数的值是其中 e 是无符号数，其位表示为 
而 B 妞是一个等？单精度是127,双精度是 1023) 的偏 置值。 由此产4: T 指数的取值范围, 
对于单精度是 -126 〜+127,而对子双精度是 -1022 〜+1023。 

小数域 fmc 解释为描述小数值 f ， 其中其二进制表小为 O./q … // n , 也就是二进制小 
数点在最高有效位的左边，有效数定义 XlM = 1 + /,冇时，这种方式也叫做隐含的以1为矛头的 
(implied leading 1 ) 表小，因为我们可以把 M 看成一个二进制表达式为的数字。既然 

我们总是能够调整指数 E , 使得有效数 M 在范围】 SM<2 之中（假设没有溢出），那么这种表 尔方 

法是一种免费获得-个额外精度位的技巧。既然第一位总是等于1,那么我们就不耑要显式地来表 
示它了。 


n 




非*格化值 

3指数域为全0时，所表禾的数就是非规格化形式的 t 在这种情况下，指数值是£=1-所仍， 
而有效数的值是也就是小数域的值，不包含隐含的开头的 h 

旁注： 为什么对于非规格化值要这样设置偏置值？ 

使相数值为卜 fl 如而不是 ft 单的似乎是违反直觉的.我们将很快看到*这种方式提供了 
一种从非说格化住平清转換到规格化值的方法* 

非规格化数冇两个 R 的。首先 t 它们提供了一种表示数值0的方袪，因为使用规格化数，我们 



70 


必须总是使 WS 】， 因此我们就不能表小0。实际卜， #.0 的浮点表不的位模式为全0:符号位是0, 
指数域全为0〔表明是-个非规格化值)，而小数域也全为0,这就得到 Af =/=0。 令人奇怪的是， 
当符号位为 h 似是其他域全为0时， 我们 得到值-0.0,根据 IEEE 的浮点格式 t 值 +0 i 0 和 -0.0 泎某 

些方面被认为是小冋的，而在其他方面是相同的。 

非规格化数的另外一个功能是用来表小那 些非常 接近于 0+0 的数。它们提供了一种属性，称为 
逐渐;益出 （gradual underflow ) ， 其中 t 可能的数值分布均匀地接近于0.0。 

特殊数值 

最后一类数值是当指数域全为1的 K 候出现的。3小数域全为0时 + 得到的值表小无穷，^5 = 
0时是 — ， 或者当 A = 1 时是 _«。 当我们把两个非常人的数相乘，或者我们除枣时，无穷能够表示 
溢出的结果 = 当小数域为非零时，结果值被称为 “ NaN ”， 就是 ‘M 、 是-个数 （Not a Number )” 的 
缩写 。一 些运算的结果不能是实数或无穷，就会返回这样的 NaN 值，比如3计算时。在 

某些应用中，用来表示未初始化的数据，它们也很有用处 a 

2.4.3 数值示例 

图 2.22 展小了，组数值，它们 nj 以用假定的6位格式宋表小，有 fc = 3 的指数位和 n = 2 的有效 
数位。偏 tt 是 2 m 1 = 3。 图中的 A 部分显示了所有可表示的值（除了 NaN )。 两个无穷值在两个 
末端 ， 规格化数具冇的最人数 t 级是±14。非规格化数聚集在0的附 近， 在图的 B 部分中，我们只 
展小了介于-】.0和 + L 0 之间的数值，这样这部分就能够看得更加清楚了 r 两个零是特殊的非规格化 
数 t 叮以观察到，那些可表示的数并+是均匀分布的——它们在越靠近原点处越稠密。 

全部范1 


to 到 - in 之间的数值 


-0 +0 


\/ 


0 十 0.2 +0.4 +0,6 +0.6 


-1 


-0.8 -0.6 -0.4 -0.2 


非规格化 ffi 规格化值 无魅 


2,22 6位浮点格式可表示的值 


右 t = 3 的指数位和；! = 2的右效数位 u «置1是3 


图 2.23 展小了假定的 S 位浮点格式的小例，其中有 fc = 4 的指数位和 n = 3 的小数位。 谝置量 
是 2 m _1=7。 图被分成了二个区域，来描述-:类数字。从 () 幵始，最靠近 0 的是北规咯化数 。这 


E 


种格式的非规格化数的£=1-7=-6,得到2 


小数 f 的值的范围是 o ， i …，从 ifti 得到数 v 


64 


的他围是0 


8 x 64 512 
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位表示 


e 


0 OQOO 000 


S 小的 非规咯 化数 0 OOOC 001 


512 


0 000C 02G 


512 


C-0C0 011 


512 


6 


0000 110 


512 


&大的非规格化数 t 000^ 1 U 


512 


8 


最小的规格化数 


0 000： OPO 


512 


9 


0 0001 001 


512 


14 


0 0110 110 


16 


15 


0 0 U 0 1 U 


0 0111 000 


C 0111 G01 


0 0111 0：0 


14 


0 1110 110 


14 


224 


15 


g 大的规格化数 


] 1110 1 L 1 


14 


240 


无穷人 


D 1111 ODO 


2.23 8位浮点格式的非负值示例 


^4的滑数位的和3的有效数位。偏置量及7 3 





这种形式的巔小规格化数同样有 £=1-7 =-6, 并 fl . 小数取值范围也为0,、…，二 e 然而，有效数 


植 W 卜〗 + 触数 V ■围忐〜盖之间。 


町以观察到敁大非规格化数」一和最小规格化数士之间的平滑转变。这种平滑件归功丁我们 


512 


512 


对非规格化数£的定义。通过将 E 定义为 l - Bias ； 而不是这样我们可以补偿非规格化数 K 
有效数没有隐含的开头的1。 

当我们增大指数时，我们成功地得到更人的规格化值，经过 LO , 然后得到最人的规格化数。 


15 


这个数具有指数£= 7,得到一个权/=128。小数等于士得到有效数対= 


因此,数值是 V = 240 




C 


超出这个值就会溢出到 

这个表达式具有一个有趣属性.假如我们将图 2.23 中的值的位表达式解释为无符号整数，它 
们就是按升序排列的，就像它们表示的浮点数一样。这不是偶然的 —— IEEE 格式如此设计就是为 
了浮点数能够使用整数排序函数来进行排序。当处理负数时，有一个小的难点，因为它们有开尖 
的 h 并且它们是按照降序出现的. m 是+需要浮点运算来进行比较也能解决这个问题（参见练 

习题2.56夂 


练 习蘧之 33 

假设一个基于 IEEE 浮点格式的5位浮点表示 t 有1个符号位 T 2 A 指教位 U = 2) 和两个小数 
位 U = 2)。 指数偏置 童是广 = L 

下表中列举了这个5位浮点表示的全部非负取值范围。使用下面的条件，填写表格中的空白項: 

假定指数域是一个无符号整数所表示的值。 

E ： 偏置之后的指 教值。 
f : 小数值 t 

W ； 有效数的值. 
h 被表示的数字值。 

用形如 I 的小数表示，财和 V 的值。被 


标注的条目不用填 


0 00 00 


0 00 01 


0 00 


0 00 


00 


0 01 0； 


0 01 1 




信息的表示和处理 


(续表) 


位 


D 01 11 


0 10 00 


0 1D 01 


0 10 10 


0 10 U 


0 11 00 


0 ia ox 


C 11 10 


图 2.24 展小 f 一些重要的单精度和双精度浮点数的 表小和 数字值根据图 Z 23 中嵌示的8位格 
式，我们能够看出有 t 位指数和 n 泣小数的浮点表承的一般 属性： 


单精度 


双韜 A 


十进制 


十进 IH 


0.0 


0…00 

最小非规格化数 | 00…00 0-01 

最大 t 规格化数1 00…00 
S 小规格化数 


00-00 


0,0 








0-£^2 


45 


-52 


1.4XI0' 

1.2 X 10 


4.9X10 


- 3 @ 




-观 


LZ ^ 




(1-e)X2' 


2,2X10 


■1M 


3 S 


- L 022 


-m 


00 … 01 


0-00 


1X2 


1X2 


2.2X10 


1X2° 


tX2 n 


01 …] ■ 
II---J0 


0—00 


1.0 


uo 


tv 


3.4 XIO 38 


irr23 


m 


最太规格化数 


(2-e)X2 


1.8 X 10 


a -^2 


22A 非负浮点数的示例 


值十 0+0 总有…个全为0的位表小。 

最小的正 （ positive ) 非规格化值有一个位表小，是由最低有效位为1而其他所有位为0构 
成的。它具有小数（和有效数）值 M =/=2 i 和一个指数值 f =-2 a_1 + 2 p 因此它的数字值 
是 

最大的非规格化值的位模式是由全为0的指数域和全为1的小数域组成的 a 它有小数（和 
有效数)值 M =/= l -2、 我们写成 h ) 和指数值£ = _2^ + 2。因此，数值 V = ( lHx 2 
这仅比最小的规格化值小一点。 

最小的正 ( positive ) 规格化值的位模式的指数域的最低有效位为 h 其他位全为0。它的有 
效数值 M = l , 而指数因此，數值 V = 2^ l+2 。 

值 1.0 的位表示的指数域除了最高有效位等于 I 以外 t 其他位都等于0。它的有效数值是 
M=L [ ft 它的指数值是五=0。 

最大的规格化值的位表小的符号位为0,指数的最低有效位等于0,其他位等于 U 它的小 
数 值卜卜 2' 有效数 M =2-2 4 (我们写作 2- e )。 指数值 E =2“- l , 得到数值 












=( 卜 2 十 V 2 广、 

对理解浮点表不很有 用的 - 个练习是把样本整数值转换成浮点形式。例如，在图 2.1 () 中我们看 

到 12 345 具有二进制表不 [11000000111001 卜通过向二进制小数点右边移动 13 位，我们创建这个数 

的 - 个 规格化表小，得到 12345= U000000111001 2 x2 n 。 为 Tffl IEEE 单精度形式来编码，我们丢 
弃开头的 h 并 R 在末 M 墦加 W 个 (h 来 啕造小 数域，得到二进制表示 [ 1000000111001 0000000000 ] 。 
为丫构造指数域，我们増加偏置景 127 到 13, 得到其二进制表不为 [10001100] 。加上符号位 0, 
我们就得到二进制的浮点表小 [OlOOOlKXHOOOOOOmOOlOOOOOOOOOO] 。 回想一下 2 丄 4 节，我们观察 
到整数值 12345 10x3039) 和单精度浮点值 12345.0 (Dx4640E400) 在位级表示上有下列关系 r 


X 2 


00000000000000000011000000111001 




4 6 4 0 E 4 0 0 

01000110010030001110010000000000 


现在我们可以看到 f 相关的区域对应于整数的低位，刚好在最卨的等丁 1的位之前停 II : ( 这个 
位就是隐含的丌1的位 1), 和浮点表示的小数部分的高位是相匹配的。 

练习羅 2.34 

正如在练9题 2.6 中提到的，整数3490593的十六进制表示为 0 x 35432 h 而单精度浮点致 
3490 5 93.0的十六进制表示为 Ox 4 A 550 C 84。 椎导出这个浮点表示，并解释整数和浮点数表示的位之 
间的关系 . 


练匀顒 2.35 

A . 假定一个 fc 位指数和《位小数的浮点格式，给出不能准确描述的最小正整数的公式（因为要 
想准确表示它需要 / Hi 位小数 ) s 

B . 对于单精度格式 U = 8, ^ = 23 ), 这个整数的数字值是多少？ 

2.4.4 舍入 

因为表系方法限制了浮点数的范围和精度，所以浮点运算只能近似地表示卖数运算 6 因此，对 
于值 x ， 我们一般想有 •种 系统的方法，能够找到“最接近的〃匹0[!值/，它可以用期望的 if 点形 
式表不出来。这就是舍入 （ rounding ) 运算的任务。关键问题是定义在两个 pJ 能值中间的数值的舍 
入方向。例如，如圯我有〗 .50 1 元，想把它舍入到虽接近的美元数，结果应该是选择1美兀 述是 2 
美亢呢？ 一种町选择的方法是维持实际数字的下界和上界。例如，我们 W 以确定可表^的值^和/， 

使得 x 的值位干它们 之间： Jt - <_t IEEE 浮点格式定义了四和小同的 舍入方 式。默认的方法是 
找到最接近的匹 配， 而其他三种吋用于计算上界和卜界。 

图 2.25 举例说明了四种舍入方式，将一个金额数 舍入致 最接近的整数向偶数舍入 
( rouFid ^ to - even ), 也被称为向最接近的值舍入 ( round - to - nearest ), 是默认的方式。它试图找到一个 

最接近的匹配值。因此，它将 1.40 美元舍入成]美元，而将 1 J 50 美兀舍入成2美元，因为它们是 
最接近的整数美元值。惟的设计决策是对位于两个 nj 能结果中间的数值的舍入。向偶数舍入方式 
采用的方法是：它将数字向上或者向 F 舍入，使得结果的最低有效数字是偶数 a 因此，这种方法将 
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1,5美兀和 2*5 美兀都舍入成2美元。 


方式 

向偶数舍入 
阳枣舍入 
向下舍入 
向上舍入 


S1.40 $1 


$1.50 $2.50 $^1 


S1 


*2 


S2 


S2 


$2 


$1 


S 1 


S 1 


$1 


S1 


$1 


$2 


$-2 


S2 


$2 


$2 


S3 


2.25 舍人方式说明 

第-种方法舍入到。个 裝接近 的值，而其他 s 种万法向上或 a r 限定结果， 




It! 


其他种方 式产生 实际值的确界 （guaranteedbound)。 这些方法在一些数字应用中是很有用的 。 
向零舍入方式把 iH 数向下舍入，把负数向上舍入，得到值 h 使得 GKUI。 向卜舍入方式把正数 
和负数都向下舍入，得到值使得向上舍入方式把正数和负数都向匕舍入，得到值 

M ^ x < x \ 


向偶数舍入初看上去好像是个相当随意的 H 标一■有什么理由偏向取偶数呢？为什么不始终把 
位于两个可表示的值中间的值都向 卜舍入 呢？使用这种方法的一个问题就是很容易假想到这样的情 
景： 这种方法舍入一组数値，会江计算这些值的平均数中引入统计偏差。我们采用这种方式舍入得 
到的一组数的平均值将比这些数本身的平均值略高一些。 相反， 知果我们总是把两个可表小 值中间 
的数字向下舍入，那么舍入出 的一组 数的平均值将比这些数本身的平均值略低-些。向偶数舍入在 
火多数现实情况中避免了这种统计偏差，在50%的时 间里， 它将向上舍入，而在50%的时间里，它 
将向下舍入。 

甚至在我们不想舍入到整数时，也可以使用向偶数舍入。我们只是简单地考虑最低有效数字是 
奇数还是偶数。例如，假设我们想将十进制数舍入到最接近的百分位。不皆用那种舍入方式，我们 
都将把 L2349999 舍入到1.23，而将 1.2350001 舍入到1.24，因为它们不是在1,23和 1.24 的中间。 

另一方面我们将把两个数1.235_和 1.245(X)00 都舍入到1.24,因为4是偶数， 

相似地，向偶数舍入法能够运用在二进制小数上。我们将最低有效位的值为0认为是偶数 T 1 


认为是奇数，一般来说，只有对形如 xn>r"_y〗oo …的二进制位模式的数，这种舍入方式 /T 有效， 
其中X和 Y 表示任意位值，最右边的 Y 是要被舍入的位置。只有这种位模式表示在两个吋能的值 
中间的值。例如，考虑舍入值到最近的四分之一的问题（也就是， -二 进制小数点的右两位X我们将 

10-001〖2(2上）向下舍入到10.00 2 (2), 10.001KM2 丄）向上舍入到10.01 3 (2-),因为这些值不是两 

32 16 4 


11100 2 ( 2士）向1:舍入成 


个可能值的中间值。我们将 10. 


11.00 2 (3)，而 10.10100 3 向卜 舍入成 


10.10,(2 r ) t 因为这些值是两个可能值的中间值，并 ii 我们倾向于使最低有效位为零 。 


2 


2 A 5 浮点运算 

IEEE 标准为诸如加法和乘法这样的算术运算的结果定义了简笮 的规姒 把浮点值文和^看成实 
数，而某个运算 G 定义在实数上，计算将产生 Round (jcOy)， 这是实际运算的精确结果进行舍入后 
的结果。在实际中，浮点单元的设 i 十者使用一些聪明的小技巧来避免执行这种精确的计算，因为计 
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算只要精确到能够保证得到-个£确舍入的结果就可以 r 。 数中的一个是特殊值，如-0、或 
NaN H , IEEE 标准定义了一些使之更合理的规则。例如，1/_0被定义为产生_«，而 1/+0 被定义为 


产生+ 


IEEE 标准中指定浮点运算行为的方法的-个优点在于，它可以独立 T 任 HA 体的硬件或者软件 
实现。因此，我们可以检査它的抽象数学属性，而不必考虑它实际上是如何实现的。 

狩面我们看负/整数加法（无符号和二进制补码)，形成 r 阿贝尔群。实数上的加法也形成了 
阿贝尔群，但是我们必须与虑舍入对这些属性的影响。我们定义 1+' ，为 R<nmd(xt>)。 这个楝作的 
定义针对 K 和>_的所冇取值，运管由于溢出吋能彤成无穷值，即使 x 和 y 都是实数。对于所有 jc 和 

y 的值，这个运算是可交换的，也就是说 
使用单精度浮点，表迖式 (3.14+ lel 0>- lelt ) 求值得到 0.0 —因为舍入，值 3.14 会£失 4 另一方面， 
表达式 3.14+( l e KHelO ) 得出值3.14。作为阿贝尔群，大多数值在浮点加法 F 都有逆元，也就是说 
= 0。例外情况是无穷〔因为+«-» =仙^)和 AWV , 因为对 7 M 壬何 ^都冇 AWV+ f jc = A ^ V D 

浮点加法不 M 有结合性，这是缺少 的域重 要的群属性。对 子科学 秤序员和编译器编写者來说1 
这具有重要的傳义=例如，假设一个编译器绐定了 如卜代码段： 


v + r ^ 另一方 Ith 这个运算是不可结合的。例如， 


b 十 C 十 d ， 


V 


编译器可能试图通过产生下列代码来省 i - 一个浮点 加法: 


b 


d ； 


然而，对 f i 来说，这个计算可能会产生不间 r 原始值的值，因为它使用了加法运算的不同的 
结合方式。在大多数应用中.这种差异非常细小，不会太重要。不幸的是，编译器没有办法知道在 
效率和忠实？原始稈序的确切行为之间，使珂者希望达到什么样的一种平衡。结果是，它们倾向于 
非常保守1避免任何会对功能产生影响的优化，即使是很轻微的影响 。 

另一方面，浮点加法满足 r 下面的单调性属性：如杲 ash 那么对 nr : 何 a 和 b 的 t 除了 
不等于 mx ^ a > x ^ b . 这个实数（以及整数）加法的属性不被尤符号或_：进制补码加法所 


JC 


遵守。 


浮点乘法也遵循通常乘法所具有的许多属性，也就是环的属性。我们定义， f y 为 RminddxW 。 

这个运算在乘法中是封闭的（虽然可能 产生无 穷大或 AWV ), 它是可交换的 T 而 H . 它的乘法单位元 

为1.0。另-方面，由 fnj 能发生溢出 t 或者由于舍入而失去精度，它不貞有 PJ 结合性。例如，草 

精度浮点情况下，表込式 ( Ie 20* le 20 广】 e -20 求值为而 Ie 20*( le 20* le -20) 将得出] e 20 E 另外，浮 

点乘法在加法 I :不具备分配性 。 例如，单精度浮点情况下， HUe 20*( ie 20- le 20) 求值为 0.0, 而 
Ie 20*! e 20 Ie 20* le 20 会得出 

另-方 面，对 T 任 Hi b 和 c , 并 fli 6和 r 都不等于仙爪浮点乘法滿足卜列单调性： 

a>b flc >0 

a 仝*且 r <0 

此外，我们还 nj 以保证，只要就有 
制补码的乘法没冇这些单调性属性 D 


(>b 


a 


c<b* f 


>0 , 像我们先 前所看 到的，尤符号成一.进 
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对于科学程序员和编译器作者来说，缺乏结合性和分配性是很严重的问题。甚至就像写代码以 
确定在=维空间中两条线是否交叉这样一个看上去很简单的任务，也町能成为一个很大的挑战。 

24.6 C 语言中的浮点 

C 提供了两种不同的浮点数据类型： float 和 double 。 在支持 IEEE 浮点格式的机器上，这些数 
据类型就对应于单精度和双精度浮点。另外，这类机器使用向偶数舍入的舍入方式。不幸的是，因 
为 C 标准不耍求机器使用 IEEE 浮点，所以没有标准的方法来改变舍入方式或者得到诸如 A 、 

或者 MiAf 之类的特殊值 D 大多数系统提供 include 〔“ V ’）文件和读取这些特征的过程库，但是细 
节随系统不司而不亂例如，当程序文件中出现下列句子时， GNU 编澤器 GCC 会定义宏 INFINITY 
(表示 +») 和 NAN (表示 AtaAH : 


# define __ GNU 一 SOURCE 1 

# include < math * h > 


练习題 2.36 

完成下列宏定义，生成双精度值 -0 O 和0 


tdefine ?OS_INFIKfITY 
Mef ine HEG_INFINITY 
#define NEG_ZKR0 

#endif 


不能使用任何 include 文件 （例如 math.hX 但你能 利用这 样一个事实：能够表示 成双精度的最 
大的有限 數^大约是 UxlO 3 ' 

当在 im、float 和 double 格式之间进行强制类型转换时，程序按照如 f 原则来转换数值和位模 
式（假设 int 是32位 的)： 

• 从 int 转换成 float， 数字不会溢出，但是可能被舍入。 

• 从 int 或 float 转换成 double, 因为 double 有更人的范围（也就是 pf 表示值的范围），也有更 
高的精度（也就是有效位数)，所以能够保留精确的数值。 

•从 double 转换成 float, 因为范围要小一些，所以值可能溢出成4-或另外， B 于精确 
度较小，它还可能被舍入。 

• 从 float 或者 double 转换成 inU 值将会向 (1 截断。例如， L999 将被转换成1，而 -1,999 将 

被转换成-1。注意这种行为与舍入是非常不同的进一步来说，值可能会溢出。 C 标准没 

冇对这种情况指定固定的结果，但是在大部分机器上，结果将是或 rA/iVv， 其中 w 
是 itit 中的位数。 

*Intd IA32 浮点运算 

在下 - 章中.我们将深入研究 lmd IA32 处理器，这种处理器大量地应用于今大的个人计算机 

中 6 这里我们重点突出这种机器的一个特性，用 GCC 编译的时候，它能够严重影响程序对浮点数 
运算的 行为. 

像大多数其他处理器一样， IA32 处理器有特别的存储器元素，称为寄存器，当计算或者使用浮 
点数时，用来保存浮点值，比起保存在主存中的值，保存在寄存器中的值读写起来更快 fl IA32 非同 
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一 般的属性是，浮点寄存器使用-种特殊的80位的扩 展精度 格式， 这样 就比保存在存储器中的信所 
使用的普通32位单精度和64位双精度格式，提供了更大的表小范围和更高的精度。和在家庭作 I 
2.58 中描述的一样，扩展精度表示类似于具有15位指数（也就是 fc =15) 和63位小数（也就是 n =63) 
的 IEEE 浮点格式。所有的单精度和双精度数在从存储器加载到浮点寄存器中时，都会转换成这种 
格式。运算总是以扩展精度格式进行的。当数字存储在存储器中时，它 们就从 扩展賴度转换成单精 
度或者双精度格式。 

对于程序员而这种把所有寄存器数据扩展成80位，并把所有#储器数据收缩成更小的格式， 
会产0： 些不太 好的结果。这意味着在#储器中保存一个值，然后収出它就会由 T 舍入、下溢或者 
J ： 溢，改变它的值。对于 C 程序员来说，这种存入和取出并不总是吋见的，会#致•些奇特的结果。 

T 面的示例说明了这个 性质： 


- - — code/data/fcomp, c 


double reciplint der L om ) 


2 


return 1,0/ ( double ) den -^ m ； 


4 


void do _ nothing ( i { W * Just like the name says */ 


8 void testl (iat denonO 


10 


double r1 f r2 ； 

int tl , t 2； 


11 


13 rl 

14 r 2 

15 tl = rl 

do_nothing () 


recip ( denom ) ; I * Stored in memory 
recip ( denom ) ； /* Stored in register *! 

/* Compares register to memory */ 
Forces register save to memory */ 
/* Compares memory to memory * / 


r 2; 


16 


t2 


rl 


r2; 


18 


print f ( tl : rl %f r 2 \ r. ,p , rl , 11 ? 
printf ( ^tescl t 2: rl %f % c = z 2 % f\n 


r 2) 


f 




19 


rl , t 2 ? 


r 2) 


20 i 


code/da ta/fcomp. c 


变量 rl 和是由有相同参数的相同函数计算的我们会 预计它 们是相同的 £ 而且，变暈 tl 和 
t 2 都是通过对表迖式 r i == r 2 求值计算出来的，所以我们预计它们都等于 U 没冇明显的隐藏的副作 
用一■函数 recip 进行直接的倒数计算 f 而且函数 do . nothing 就像它的名字表明的那样，什么都没 
干。然而，当带优化选项 “ -02” 编译， 并用参数〗0运行这个文件时，我们得 到卜列 结果： 


tGRtl tl: r ： 0,100300 != r2 0,100000 
testl t2 ： r_ 0,100300 


r 2 0.100000 

第一个测试表明两个倒数是不同的 t 而第二个测试又说它们是相同的！这当然不是我们预想的， 
也不是我们想要的。理解这个例子的全部细节需要我们学习 GCC 产生的机器级代码（参见 3.14 节)， 
但是代码中的注释提供 r 为什么会出现这样结果的线索□函数 rec i p 计算的数值返冋结果到浮点寄 
存器中。无论何时过程 testl 调用某个阐数，它必须将浮点寄存器中的当前值存储到主程序栈中，这 
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是存放涵数局部变量的地方。在执行这个存储的过枵中，处理器将扩展精度寄存器值转换成双精度 
存储器值。因此，在第二次调用 redp (第14行）之前，变量 rl 被转换并存储成双精度数 h 在第 
二个调用之后，变量 r2 有函数返回的扩展精度值。在计算 tl 时（第15行)，双精度数 H 与扩展精 
度数 r2 相比较。因为 0.1 不能精确地被任何一种格式表示，所以测试的结果是假。在调用函数 
do-nothing (第16行）之前， r2 被转换并 R 存储成双精度数。在计算时（第17行），比较的是两 
个双精度数，得到结果为真。 

这个示例证明了在 1 A 32 机器上 GCC 的一个缺陷(在 Linux 和 Microsoft Windows 系统上也有相 

同的结果)。由于对程序员来说不可见的运算，例如浮点寄存器的保存和恢复，变量的值发生了改变。 
我们对 Microsoft Visual C++ 编译器的测试表明它没有这种问题. 

旁注：我们为 什么* 关心这 些不一 ft? 

正如我们将在第5章中讨论的：伏化鶬 译器 的基本 A 則之一是，无论祝化与否，程序应该产生 
完全相同的结不幸的是* GCC 对 IA 32 机葬上 的浮点代辟洗有鴒足这一要求. 


有■■些方法来解决这个问题，不过都不是很理想。最简单的方法就是用命令打选项 
- ffloat - stor «" 来调用 GCC ， 告诉 GCC 每一个浮点计算的结果在使用之前都必须存储到存储器中， 
再读回来。这将迫使每个被计算出来的值都被转换成较低精度的形式。这样做会使程序变慢■些， 
伸.是使行为变得更加可预知。不幸的是，我们己经发现即使在给出命令行选项的情况下， GCC 也没 
有严格遵从先写后读的约定。例如，考虑下面的 函数： 




code/data/fcomp, c 


1 void test2(int denom) 


3 double rl 

4 int tl; 

5 rl 

6 tl 


recip(denom )； 

1.0/( double) denom ； /* Compares register or memory to register */ 

7 printf ("test2 tl: rl U ic= 1. ]/10 - 0\n" f rl, tl ? f = J : f r); 


Default: register, Forced store: memory 




rl 


■— 




code/dcta/fcotnp. c 


当只带〜 02” 选项编译时 41 得到值 1—— 比较是在两个寄存器值之间进行的 a 当带 
选项编译时， ti 得到值0!虽然函数 recip 调用的结果被写入存储器，并且读回到一个寄存器中，然 
而， 1.0/( double ) denom 计算出的值是保存在寄存器中的 9 总地来说，我们发现程序中看起来 
微小的改变能够引起这些测试以不可预知的方式成功或者失败。 

另外一种选择是 r 我们能够通过将所有的变量声明为 long double 类型，而让 GCC 在所有的计 
算中都使用扩展精度，如 F 面的代码段 所示： 


cod^/data/fcomp, c 


1 long dcubls recip_l(int denom) 


3 return 1.0/(long double) denom; 


4 ) 

5 
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6 void test3 i int denom) 


8 long double rl , r2 ； 

t 15 ; 


10 


11 rl = r^cip_l (denom) ; /* Stored in memory */ 

12 r2 = recip_l (cienom) ； Stored in register V 

13 i: ] 二 r 1 == j ：2 ; I 年 Compares register to memory */ 

Forces register save to memory */ 

/— Compares memory to memory 

1.0/( long double) denom ； /* Compare memory to register * / 

17 printf( u Leyt3 LI: rl % f %c= r2 %f\n" r 

18 (dcuble) rl ； tl ? 


14 do_not:"ning ()； 

15 t2 

16 t3 


rl 


r2; 




(double) r2} 


19 printf( n test3 t2: rl %E %c= r2 %f\n 

20 (dcuble) rl , t2 ? 


(doubleI r2); 
21 printf ( 11 test3 t3 ： rl %E %c= 1,0/10 . 0\n ,f , 


22 (double) rl, t2 ? 

23 } 


code/dato/fcomp, c 


ANSI C 标准允许 long double 类型的声明，虽然对于大多数机器和编译器而 S, 这个声明等价 
十普通的 double 类型。然而，对 T IA32 机器上的 GCC 来说，它会对存储器数据使用扩展精度格式， 
就像对行点寄仆器数据•样。这就便得我们能够充分利用扩展稍度格式提供的更 r 的范围和更人的 
精度，从向避免我们在宂前的例子 中苕到 的异常视象。不幸的是，这种解决方式是要付出代价的。 
GCC 使用]2字节来存储 long double 类裂，增加广50%的存储器消耗然10个字节匕经足够了， 
但 是使巾 12 能获得更奵的存储器性能 5 Linux 和 Windows 机器上使用相冋的分配方式)。在寄 

存器存储器之间传送这4更 K 的数据也耑要更多的时间。尽管如此，这仍然是稈序想要得到设准 
确和可预知结果 的嫱好 选择。 

旁注： ArianeS— 浮点溢出的离昂代价 

将大的浮点數转换成整数是一种常见的程序错误来源，1996年6月4日，对于 Ariane5 火箭的 
初次航行来说,这样一个错误产生了灾难性的后果.发射后仅仅37秒钟，火箭偏离了它的飞行路径， 
解体并且爆炸了.火箭上栽有价值5亿美元的通信卫星， 

后来的调查 [49] 並示，控制憤性导航系统的计算机向控制引擎喷嘴的计算机发送了一个无效数 
据，它没有发送飞行控制信息，而是送出了一个诊断位模式，表明在将一个64位浮点數转换成16 
位有符号整数时，产生了溢出。 

溢出值测量的是火箭的水平速芈，这比早先的 Arianc 4火箭所能达到的高出了 5倍，在设计 

Arkne4 火箭的软件时，他们小心地分析了教字值，并且确定水平速率决不会妓出一个16位的數 * 

不幸的是，他们在 Ariane 5火箭的系统中简单地重新使用了这一部分，而没有检查它所基于的假 


设 


漆习® 2,37 

假定吏量 X 、 f 和 d 的类型分别是 int 、 float 和 double 。 它们的值是任意的，除了 f 和 d 都不能 
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等于 +A -CC 或者灿兄对于下面每个 C 表达式，要么证明它总是为真（也就是，求值为 U 或者 
给出一个使表达式不为真的值（也就是，求值为 0). 

( int)(float) x 
(int)(double) x 

(float)(double) f 

(float.) d 

-(-f) 

F\ 2/3 二 2/3,0 

G. (d >= C.0) II ((d*2) 

H, (d+E)-d 


d 




0 . 0 ) 


f 




2.5 小结 


计算机将信息编码为位（比特)，通常组织成字节序列 & 有不同的编码方式用來表小整数、实数 
和字符串 4 不同的 ii 算机模型在编码数字和多字节数据中的字节顺序上使用不同的约定。 

C 语言被设 W 成包容多种不同字长和数字编码的实现。虽然卨端机器逐渐讦始使用64位字氏. 
但是 H 前大多数机器仍使用32位字长。人多数机器对整数使用一.进制补码编码，而对浮点数使用 
IEEE 编码。在位级上理解这些编码，并且理解算术运算的数学特 ft 对于编写能在全部数值范围 h 
正确运算的枵序来说，是很重要的。 

C 语言的标准规定在尤符号和有符号整数之间进行强制类型转换时，基本的位模式不应该改变。 

在二进制补码机器 h , 对于-个 w 位的值，这种行为是由函数和 f/27； 来描述的 b C 语言隐 

式的强制类牮转换会得到许多稈序员无法预计的结果 t 常常导致程序 错误。 

由于编码的长度有限，计算机运算4传统整数和实数运算相比，具有非常不同的属性。当超出 

表示范围时，有陧艮度能够引起数值溢出。当浮点数非常接近 f 0.0,从而转换成零时，浮点数也 
会卜溢1 


和人多数其他程序语言一样， c 语 n 实现的有限整数运算和真实的整数运算相比有一些特殊的 

属性。例如，由于溢出，表达式能够得出负数。但是，无符号数和二进制补码的运算都满足环 

的属性 g 这就允许编译器做很多的优化。例如，用 “<<3)1 取代表达式7々时，我们就利用了结合 

性、交换性和分配性，还利用了移位和乘以2的释之间的关系。 

我们己经看到了几种使用位级运算和算术运算组合的聪明方法。例如，我们看到，使用二进制 

补朽运算 ，奸 1是等价 T ^的。另外一个例7,假设我们想要 -- 个形如[0,…,0，1，…， U 的位模式， 

由 W A 个0后面紧跟着 fc 个1组成。这些位模式対于掩码运算是很有用的 & 这种模式能够通过 C 

表込式 u«t)-i 生成 T 利用的是这样一个属性，即我们想要的位模式的数值为/-I。例如，表达式 
(t«8) -1 将并生位模式 (kFF。 

浮点表小通过将数字编码为的形式来近似地表示实数，最常见的浮点表示方式是由 IEEE 
标准754定义的。它提供丫几种不同的铕度，最常见的是羊.精度〔32免）和双精度 （64 位)。 IEEE 
浮点也能够表小特殊值》和 NaN. 

必须非常小心地使用浮点运算，因为浮点运算的范围和精度有限，而且浮点运算并不遵守鞞遍 
的算术属性，比如结 合性， 
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参考文献说明 

关 TC 的参考书 [40, 32] 讨论了不同的数据类型和运算的 属性。 C 标准对 f 精确的宇长或者数 
T - 编码没有详细的定义。这些细节是故意省去的，以使得可以在更大范围的不同机器1.实现 C 语言、 
己经冇儿本书 [4 L 50] 给 TC 语言程序员一些建 L 义，警告他们关于溢出、隐含强制类型转换到无符 
号数，以及其他一些我们 ti 铨在这一章屮谈及到的陷阱，这些书还提供丫对变覃命名、编码风格和 
代码测试的有益建议。关于 Java 的书 C 我们推荐 Java 语言的 创始人 James Gosling 参与编写的-本 
书 U ]) 描述了 Java 支持的数据格式和算术运算 & 

大多数关于逻辑设 il 的书[86, 39] 都有关于编码和算术运算的章 L 这些书描述了实现算术电 
路的不冋方式。 Overton 的关 P IEEE 浮点的书 [56] 提供 f 从-个数字应用程序员的角度出发的关于 
格式和属性的洋细描述。 

家庭作业 


=考验概念的快速 >」题 
♦ ♦= 需要5〜15分钟来完成，可能包括编写和运行稈序 
♦ ♦♦= 需要儿个小时来完成的持续 >]题 
♦ ♦♦♦= 耑要一个或者两个星期来完成的实骀任务 




2.38 




你能够访问的不冋机器上，编译并运彳 T 使用 show_bytes 的示例代码 （i 件 show-bytes.d 确 

定这些机器使用的字 U 顺序。 


2.39 




试着用+问的示例值来运行 show_bytes 的代码 


240 




编写秤序 shdw_short、show_long 和 showjJoubk， 它们分别打印类型为 short inulong int 和 double 
的 C 语言对象的字节表小。请在几种机器 t 运行。 

2.41 ♦ ♦ 

编写过程 ijUittl^endian， 当在小端法机器上编译和运行时返回 U 在大端法机器上编译运行时 
則返回0。这个程序应该可以运行在任何机器1：，无论机器的字松是多少。 


2.42 ♦ ♦ 

编写一个 C 表达式，它生成一个字，由 x 的最低有效字节和 y 巾剩下的字节组成。对于运算数 
(KS9ABCDEF 和 y = 0x76543210, 就得到 （K765432EF。 

2.43 ♦♦ 

只使用位级和逻辑^算*编写出 C 的表达式，在下列描述的条件下产生1，而在其他情况卩得 
到0。你的代码应该能 L 作在仟何字长的机器上。假设 x 是整数. 

A,x 的任何位都等于1。 

B+x 的任何位都等于0。 

C . x 的最低有效字节中的位都等于 h 


X — 
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D.k 的最低冇效字节中的位都等于0 


2.44 ♦♦♦ 


arithmeticO, 使得这个蜣数在对整数使用算术右移的机器 h 运行时 
屮成 h 而萁他情况下生成0。你的代码应该可以运行在任何字 K 的机器 U 在几种机器上测试你的 

代码。编写并测试过程 unsigned_shifts_are_arUhmetic()， 该过程确定对无符号整数使用的移位形式。 


编丐个阑数 int_shifts 


are 




2.46 


你有-个任务，要 编写个 过程 int_sizejs_320, 当在一个 int 是32位的机器上运行时，该程 
序产生I,而对 r 其他情况则生成0 3 下面是开始时的 尝试： 


1 /* The following code does not nin properly on some machines */ 

2 inL bad int 


_32() 


size is 


/ + Set most significant bit (rasb) of 32 七 it machine */ 

in: Ket_msb 二 1 << 31; 

/* Shift pa.st msb of 32 七 it word */ 

beyond_msb 


4 


32 


in: 


<< 


/* set 一 msb is nonzero when word size >=32 

beyond_msb is zero when word size 32 + / 

return set_m^b && Ibeyond_msb; 


10 


11 


12 } 


不过， 3 在 SUN SPARC 这样的 32 位机器上编译并运行时，这个过程返回的却是0 & 卜面 的编 
评器信息给了我们-个问题的指示： 


warning : left shift count >= width of type 


A. 我们的代码在哪〜力面没有遵守 C 的标准？ 

B . 修改代码，使得它在 int 罕少为 32 位的任何机器上都能正确地运行。 

C. 修改代码，使得它在 im 至少为 16 位的任何机器上都能正确地运行。 


2.46 ♦ 

你刚刚开始为一家公司工作，他们要实现■组过程来操作一个数据结构，要将4个有符号字节 
封装成一个32位 imsignecL 在字中的字节是从0 (最低有效字节）编号到3 (最高有效字节)。你被 
分配的任 务是： 为使用二进制补码运算和算术右移的机器编写一个具有如下原型的 函数： 


/* Declaration of data type where 4 bytes are packed 
into an unsigned * / 

Lypedef unsigned packed_t ； 


"Extract byte from word. Return as signed integer */ 
int xbyte(pa-cked_t word, int bytenuiti )； 


也就是说，.菊数会抽取出指定的字节，再把它符号扩展为一个32位 im。 
你的前任（因为水平不够高而被解雇了）编写了卜_囟的 代码： 


/* Failed attempt at xbyLe */ 

int xbyte (packed_t word, int bytenuml 


return 


(word >> (bytenum 


3)) i OxFF ； 


« 


A . 这段代码错在哪串 .？ 

B 给出函数的 fE 确实现，只使用左右移位和一个减法 。 

2.47 ♦ 

填写下列表格，按照图 2.20 的风格，表明对五位向量奴补（或取反）和加1的结果。清 M 示位 
向最和数值。 


X 


inert X ) 


(0 HU 1) 


[[)1111] 


[ 11000 ] 


[mill 


[ 10000 ) 


2.48 ♦ ♦ 

i 青说明先减 1 然后取补等价于先取补然后再加 1 。也就是说，对于任意有符号值 X, C 表达式 d X 、 
和〜 ( a -1) 产生1杼的结果。你的推导依赖于二进制补码加法的什么数学属性？ 

249 ♦♦令 

假设我们想要汁算的完令 2> v 位表小，其中，1和>，都是无符号数，并 H. 运行的机器上数据 

类型 unsigned 是冰位的 D 乘积的低 w 位能够用表込式 x * y 计算，所以，我们只需要个具有下列 
原型的阁数 


unsigned 


ungigned_high_prod(unsigned 


unsigned y} 


inz 


x 


这个函数计 t 尤符号变 M x 的高 w 位。 
我们使用个具冇下凼嵬型的库函数： 


ini signed 一 ( int 


irit y); 

它计算在;:和？是二进制补码形式的情 况下， 文”的高冰位。编写代码调用这个过程，以实现 
用无符兮数为参数的阐数。验证你的解答的止确性 a 


x 


提示 3 看看等式 2.16 的推导中，有符号乘积 x j 和尤符号乘积之间的关系 u 

2.50 ♦令 

假设我们有•个 任务： 屮成-段代码，用来将整数变董 jc 乘以+ ㈣ 的常数因了为了提岛效 

率，我们想 只使用 +、_、《等 运算。 对 F 下列尤的值，写出执行乘法运算的 C 表迖式，每个表达 
式中最多使用3个运賃。 

A . 欠二 5: 


B . K =9； 

C K =14： 
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D . K ^-56： 


2.51 ♦♦ 

编写产如下位模式的 C 表达式，其中 J 表示符号 a 軍复女次。假设一个 w 位的数据类型。你 
的代码可以包含对参数^/和 fc 的引用*它们分别表小 i 和 A 的值，但是不能使用表小 w 的参数 c 

A . 广 V 。 

B. (T k j l k Q/, 

2-52 ♦參 

假设我们把 w 位的字中的字节按照从 0( 最低有效字节）到>^/8-1 (最高有效字的顺序编号。 
写出下 tfC 函数的代码，这段代码将返回一个无符号值，其中参数 jc 的字节；己经被字节6覆盖了： 


unsigned replace_byte (unsigned 


i nt i, unsigned char b) 


下面是一些示例，展示了函数会如何丄作: 


replace_byte(3xl2345678 P 2^ OxAB) 
repldce_byte(3x12345678, 0, OxAB) 


0xl2AB5678 

0xl23456AB 


- > 


2.53 ♦♦♦ 

填写下列 C 函数的 代码. 函数 M 使用算术右移（由值 xsra 给出）宋执行逻辑右移，紧跟着的是 
其他不包括右移或者除法的运算。函数 sra 使用逻辑右移（由值 xsrt 给出）來执行算术右移，紧跟着 

的是其他不包括右移或者除法的运算。你可以假设 iiu 是32位长的 t 移位 tit 的取值范围是0〜31。 


unsigned srl(unsigned 


int k) 


x 


/* Perforir shift arithmetically 
unsigned 


\ int) x 




xsra 


>> 


int sra(int 


int k) 


/* Perforrr shiEt: logically */ 
int xsrl = (unsigned) 


k 


x >> 


/* … V 


2.54 ♦ 

我们在一个 im 类型值为 32 位的机器上运行程序。这些值以二进制补码表示，而 FI 它们都是算 
术右移的。 unsigned 类型的值也是32位的， 

我们产生任意值 . t 和 y, 并 fl 把它们转換成其他无符号数 t 


/* Create some arbitrary values 

random(); 


int x 
int y = random (); 

/* Convert to unsigned V 
unsigned ux = (unsigned) x ； 
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unsigned uy - (unsigned； y ； 


对于卜列侮个 C 表达 式， 你要指出表达式是否总是为 L 如果它总是为1,那么请描述其中的 

数学原理。否则，列举出一个使它为0的参数小 ， K 

A* (K<y\ 

B. ( (x+y)«4) 

p-j Hw -X- 

L. y == 

D. (inti (ux-uy) 

E. ( (x » 1) 

2.55 44 

考虑这样一些数字 f 它们的二进制表小是由形如 O + yyyy ” …的尤穷串组成的 t 其中 j 是…个 

t 位的序列 & 例如，丄的_」进制表小是 (KOIOUUOI … 0 - 01 )， 而 I 的二进制表示是 o.wmtxmtxm 


(-x>-y) 


17*y 十 15*X 


+ y-x 




t ^+ y ) 


(y-x) 


1 } <= x 


« 


b 鉍 b 


(y = OOH ) 


k ， 设也就是说，这个数具有二进制表小 > 对于无穷串表氺的值，给出-个屮 r 
和 Jt 组成的公式。 

提示： 淸考虑将-进制小数点右移 t 位的结果。 

B , 对于卜列的 y 值，串的数值是多少？ 

U) 001 


(b) 1001 

(c) 000111 


2.56# 

填写 F 列枵序的返 ㈣ 值，这个程序测试的是它的第…个参数是否大于或者等于第_二个参数。假 
定函数 f 2 ii 返回一个无符号32位数字，其位表示与它的浮点参数相同。你吋以假没参数都不是 NaN 。 
+0和 -0 被认为是相等的， 

int: float_ge ( float x, float y) 


unsigned ux 
unsigned ay 二 f 2 ~l iy ); 


f 2u (x) 


/* Get the sign bits 
unsigned 
unsigned sy 


ux >> 3\； 
uy >> 31; 


sx 






/* Give an expression using only ux, uy, sx f and sy */ 
return ^ , V ; 


2.57 


ri 




铪定一个浮点格式.有 i 位指数和 /7 位小数，对于 K 列数，写出指数£、有效数小数/和 
值 K 的公式。另外.请描述其位表示 3 
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A ■数5.0。 

B. 能够被准确描述的最大奇整数 

C, 最小的规格化数的倒数。 


2-58 


ri 


lintel 兼容的处理器也支持“扩展精度”浮点形式，这种格式具有80位字长，被分成1个符 
号位、15个指数位 U=15)、 1个申独的锒数位和63个小数位 ( ^=63 ) ,裉数位是 IEEE 抒点表示中 
隐含位的显式拷贝。也就是说，对 f 标准值它等于】，对于不标准值它等丁 0。填写 K 表，给出这种 
格式中的-些“有趣的”数字的近似值。 


扩展精度 


述 


+进制 


最小的非规格化数 
JS 小的规格化数 
S 大的规格化数 


2.59 ♦ 

考虑一个基子 TEEE 浮点格式的16位浮点表示，它具有1个符号位、7个指数位 （fc 7) 和8 
个小数位 （fl=8)。 指数偏置量是 2 m -1 = 6L 

埘于每个给定的数，填写卩表，其屮，每一列具有如卜指示说明： 

Hex： 描述编码形式的四个十六进制数字 D 

M . 有效数的值。这应该是一个形如1或 f 的数，其中 jc 是一个格数，而 y 是2的整数幂。例 


67 


如： 0、，和丄 

64 256 

£：指数的整数值。 

h 所表小的数罕值。使用 J 或者 tx 2 ; 表示，其中 a 和 z 都是整数。 


□ 


举一个例子，为了表示数丄，我们有 s = 0, M = 丄和 E=l。 因此我们的数的指数域为 0x40 ([■ 


4 


进制值63+]=64)，有效数域为 OxCO ( 二进制110000002)，得到-个十六进制的表示 40CO 

标记为 “-” 的条 E 不用填写。 


Hex 


:®小 M 的位 


■■ 


256 


最人的作规格化数 


和六进制表示为 3 AA 0 的数 




2,60 


我们在一个 im 类型为32位二进制补码表示的机器上运行程序。 floai 类型的值使用32位 IEEE 
格式，而 double 类型的值使用64位 IEEE 格式。 

我们产生任意的整数值 a _ v 和^并辻把它们转换成 double : 


!今 Create some arbitrary values */ 

int x = random ()； 

int y = random () ； ■- 

int 2 = random(1 ； 

"Convert to double * / 

double dx 

double dy 
double ds 


(double) 

(doubl e) y ? 

(double) s; 

对于下列的每个 c 表迖式，你要指出表达式是否总是为 K 如果它总是为1，描述其中的数学 
原理。否则，列举出使它为0的参数的例子。请注意，不能使用 IA 32 机器运行 GCC 来测试你的答 
案，因为对于 float 和 double ， 它使用 的都是80位的扩展精度表示 D 

A, (double)(float) 

B , dx + dy 

C, dx + dy 

D, dx * dy 

E, dx / dx == dy / dy 


x 


dx 


x 


(double) (y+x) 


d2 -= dz f dy + dx 
dz -- ds 


dy * dx 


2.61 




你被分 Sri f —个任务，要编写个 C 闲数柬计算 y 的浮点表示，你意识到完成这个的最好方法 
是 K 接创建结果的正 EE 笋精度表小 D 当太太小时，你的程序将返回0.0。3 太人时，它会返回+ 
填写卜列代码的空 Q 部分，以计算出正确的结果。假设函数 u 2 f 返叼的浮点值与它的无符号参数有 

相同的位 表小、 


float fpwr2iint x] 


/* Result exponent and significant */ 
unsigned exp 
unsigned u ； 


Kig; 


t 


if (x 


f + 


Too small. Return 0.0 V 


< 


exp - _ 

sig - _ 

)else if (x 

exp -— 

sig =_ 

} else if fx 


Denomalized result */ 


< 


/* Normalized result. */ 
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exp 


sig 


} else { 


/* Too big - Return +oo V 


exp 


sig 


/* Pack exp and sig into 32 bits */ 

23 I sig; 

/ * Return as float * / 
return u2f fu); 


u 


exp << 


ri 


2.62 




22 


223 


如果当时他有一台计算机和标准 


大约公元前 250 年，希腊数学家阿基米德证明了 


< K < — 


0 


71 


^<matLh>, 他就能够确定 ti 的单精度浮点近似值的十六进制表小为 0x40490FDB fl 3 然，所冇的这 
些都只是近似值，因为 71 不是有理数， 

A . 这个浮点值表示的二进制小数是多少？ 


22 


B . = 的二进制小数表示是什么？ 提示： 参见练习题 135 


C . 这两个 K 的近似值从哪一位（相对于二进制小数点）开始不同的 ? 

练习题答案 


练习题 2.1 答案 

- 旦我们开始查看机器级程序，理解十六进制和二进制格式的关系将是很重要的，虽然本书中 

介绍了完成这些转换的方法，但是做点练习能够让你更加熟练。 

A . 将 0 x 8 F 7 A 93 转换成二进制 
十六进制 8 

二进制 1_ 

将二进制 1011011110011100 转换成十六进制； 

-进制 1011 0111 1001 1100 

十六进制 B 

C . 将 0 xC 4 E 5 D 转换成二进制 

t 六进制 C 

二进制 1100 0100 1110 0101 1101 

D . 将二进制 1101011011011111100110 转换成十六 进制： 

0101 om 1110 0110 


F 


A 


nu oin loio looi ooii 


c 


4 


E 


5 


D 


二进制 11 
f 六进制 3 


E 
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练习题 2.2 答案 

这个问题给你一个机会思考2的幂和它们的 t 六进制表示6 


2 ° f 十 进制) 


2 A 六进制) 


n 


11 


2048 


0x300 


128 


x 8 0 


13 


RI92 


Cx20C 


17 


131072 


Cx200D 


16 


66536 


0xl0[)D 


256 


C-xlOC 


32 


x20 


练习题 2.3 答案 

这个问题给你一个机会试着对一些小的数在十六进制和十进制表示之间进行转换 6 对于较大的 
数，使用计算器或者转换程序会更加方便和 nj 靠些。 


十进制 


二进制 


十六进制 


C 0 


55=3 * 16+7 


00] I 0111 


37 


136=8 * 16+8 


1000 1000 


39 


243=15 * 16+3 1111 0011 


F3 


5 ■ 】 6fhS2 


0101 0010 


52 


10 - 16+12=172 1010 1100 


AC 


14 ■ 16+7=B1 11100111 


E7 


10 * 16+7=167 I 10)00111 




3 ■ 16+14 匕 62 


ooi ] mo 




11 • 16+12=]^ 1011 1100 


BC 


练习题 2.4 答案 

当开始调试机器级程序时，将发现4许多情况中， 一 些简单的十六进制运算是很有用的。可以 

总是把数转换成十 进制. 完成运算，再把它们转换冋来， G 是能够自：接币I六进制丄作更加冇效， 
而II能够提供更多的信息。 

A. 0x50^ 0x8 - 0x5034 D 8加上十六进制 c 得到4并且进位1。 

B. 0x502c-0x30 = 0x4ffc. 在第二个数位，2减去3要求从第二位借1。因为第二位是0,听以 
我们必须从第四位借位。 

C. 0x502c+64 = 0x506c. 十进制64 (2 6 )等于十六进制 0x40. 

D. 0x5lda-0x502c = 0xae c 卜六进制数 a (十进制 10) 减去十六进制数 (： 〔十进制 12) t 我们从 
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第二位借16,得到十六进制数 e (十进制数14)。在第二个数位，我们视在用十六进制 c (十 
进制 12) 减去2,得到十六进制 a (十进制10)。 


练习题2,5答案 

这个问题测拭你对数据的字节表示和两种不同字节顺序的理解。 

大端法：12 

大端法：12 34 

大端法 r 12 34 56 


A . 小端法 r 78 

B . 小端法： 78 56 
Ci 小端法： 78 56 34 
回想下 f S h 0 w _ bytes 列举了-系列字节 * 从低位地址的字 节开私 然后逐--列出高位地址的 

字节 。 在一个小端法机 器上， 它将按照从最低冇效宇节到最髙有效字节的顺序列出字节。在一个大 
端法机器上，它将按照从 M 高有效字节到足低有效字节的顺序列出字竹。 


练习题 2.6 答案 

这个问题又是一个练习从十六进制到十进制转换的机会。同时它带给你对整数和浮点表示的思 
考。我们将在本章后面更加详细地研究这些表示。 

A . 利用择中小例的符号，我们将两个串写成： 


0 0 3 5 4 3 2 1 

OOOOOOOODOIIOIOIDIODOOIIODIOOOOI 




0 C 8 4 

01001010010101010000110010000100 

B . 将第二个字相对于第…个字移动2位，我们发现一个有21个匹配位的序列， 

C . 我们发现除 T 最高位 h 整数的所有位都嵌入在浮点数中。这正好是书中示例的情况。另外， 
浮点数有一些非零的高位不 S 整数中的高位相匹 Sd 。 

练习题 2.7 答案 

它打印出41 42 43 44 45 46,回想一下，库函数 strlen 不计算终止的空字符，所以 showjjytes 

只打茚到字符 “ F ' 

练习瓶 2.8 答案 

这个题 B 是一个帮助你更加熟悉布尔运算的练习。 


4 A 


结果 


运 


I 0 H 01001] 

[01010101] 


HMI 0 U 0] 

[101010101 


b 


a&rb 


[010000013 

[oninoi] 

[am liooi 


\b 
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练习题 2.9 

这个句题举例说明了布尔代数怎样波用来描述和解释现实世界的系统。我们能够看到这个颜色 
代数刘使用长度为3的位向董 I :的布尔代数是样的 t 

A. 颜色的取补是通过对 R、G 和 B 的值取补得 到的。 由此，我们叮以看出，白色是黑色的补， 

黄色是蓝色的补，红紫色是绿色的补，蓝绿色是红色的补。 

黑色是 (K 而白色是1。 

C. 我们基于颜色的位向量表示束进行布尔 运算。 据此，我们得到以下结果： 

蓝色 （001) I 红色 (100) =红紫色 (101) 

红紫色 （101) &蓝绿色 （011) =蓝色 （001) 

绿色 （010) A 白色 （m ) =红紫色 （ lot ) 

练习题2,10答案 

这个程序依赖于 Exclusive - Or 是可交换的和叮结合的这一事实，以及对于任意的&有^ 
^=0. 在第5章中我们将看到当两个指针 X 和 y 相等时（也就是说，两个指针指问同一个位置时 )* 
这段代码将1怍得不汜确 4 


步明 


W 始 


步* I 


歩骤2 


(u s h) A h^ (b ^ h)^ a = a 


步骤 3 


( a ^ b ) A a =( a ^ a )^ h^b 


练习题 2.11 答案 

观察下列表达式： 

A + xl —OxFF 

B , x A OxFF 

C. a& "OxFF 

这些表达式是在执行低级位运算中经常发现的典犁类型。表达式创建一个掩码，该掩码 S 
个敁低位等？0,而其余的位为 h 对以观察到，这些掩码的产生是和字长无关的，而相比之下 t 表 
达式 OxFFFFFFOO 只能工作在32位的机器上， 

练习題 2.12 答案 

这个 H 题帮助你思考布尔运算和典型的掩码运算之间的关系。代码如卜： 


/* Bit Set */ 

int bis(ini x, int m) 


mt result : > 
return result; 


Bit Clear */ 
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int bic(int x f int 


int result = x i 
return reault; 


很容易看出， bis 是等价丁■布尔 OR —— 如果 x 中或者的这-位置位了，那么 z 中的这一位 


就置位 


bic 运算更加微妙一些 & 我们想要设置 z 的-位为0,如果 m 的相应位等于1。若我们对这个掩 
码取补得到那么我们就是想要设 tz 的一位为0,如果取补后的掩码的相应位等于0。我们能 
褚用 AND 运算来实现这一点， 


练习頫 2.13 答案 

送个问题突出说明了位级布尔运算和 C 语言中的逻辑运算之间的关系 


表达式 


表达式 


[ 


0x02 x ^ 


0x01 


x ^ y 


y 


0kF7 


il Y 


OxQl 


y 


O^FD 


I ly 0x00 


y 


0x00 


0> c 01 


x & Jy 


x y 


练习娌 2.14 答案 

表达式是！ 

也就是，当 R 仅当 X 的每一位和 y 相应的每一位匹配时，等于零。然后，我们利用！的功能 
来判定一个字是否包含任何非零位6 

没有任何实际的理由要去使用这个表达式，而不简单地写成 = 但是它说明了位级运算和 
逻辑运算之间 的-些 细微差别。 

练习题 2.15 答案 

这个问题是一个帮助你理解不同移位运算的练习. 


y ) 


U ： 


x«3 


x »2 


(逭 tt ) 


( K 术) 


十 六进制 


二进制 


二进制 十六进制 -进制 f 六进制 一 -进制 十六进制 


OxFO 


[111100001 


0x80 


OxjC 


[ oounoo ] 


imiuoo ) 


OxFC 


xOF 


[ 00001111 ] 


0x70 


0 x 03 


0x03 


OxCC 


loonoo ] [ OiKXJooo ) 


0x60 


0xF3 


[00110011] 


[11110011] 


0x55 


[oioioion [ioioiooo] 


xOAS 


Ok ： 


[00010101] 


[00010101] 


0 k 15 


练习题 2.16 答案 

一般而言，研究非常小的字长的例 了是 理解计算机运算的非常好的方法。 

无符号值对应于图11中的值。对于二进制补码值 f 十六进制数字0〜7的最卨有效位为0,得 
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到非负值，然而十六进制数字8〜 F 的最高有效位为〗，得到一个为负的值。 


B2U,{x) 


827,( J ) 


十六进制 二进制 


2 3 + 2 1 ^ 10 


A 


noio ] 


[ 0000 ] 


o 


2 ] + 2 n = 3 


[ 0011 ] 


[ 1000 ] 


2 J =_S 


夕 + 2^]2 

2 ^ + 2 : + 2 '+ 2 ^ 15 


C 


[ 1100 ] 


-2 3 + 2 3 +z' + 2 fl =-L 


[Ulll 


练习题 2.17 答案 

对 f 32 位的机器，任何值如果由8个十六进制数字组成的，而且开始的那个数字在 S 〜 f 之间, 
那么这个数值就是一个负数。看到数字以串 f 开头是很普遍的事情，因为负数的起始位全为1。不 
过，你必须看仔细「。例如，数 0 x 80483 b 7 仅仅有7个数字，把起始位填入0,从而得到 0 x 080483 b 7, 
这是-•个正数。 

80483b7 ： 81 ec 34 01 00 00 
8G483bd ： 53 
80483be: 8b b5 08 

80483cl: 8b 5d 0c 

80483c4; 8b 4d 10 

80483c7- 8b 85 94 fe ff :f 

80483cd: 01 cb 

80483cf ： 03 42 10 

80483d2 ： 89 85 aO fe ff ff 

80483d8: 8b 85 10 ff ff Ef 

80483de ： 89 42 lc 

80483el: 89 9d 7c ff ff :f 

30403e7 : 8b 42 18 


sub $0x184,%esp 
push %ebx 

mov OxR(%ebp) r %edx 

mov Oxc(%ebp) f %ebx 
mov 0x10(%ebpl ,%ecx 
mov 0xfffffe94(%ebpl, 
add %ecx,%ebx 
add 0x10(%edx) r %eax 
mov %eax,OxfffffeaO(%ebp) 
mov 0xffffffl0(%ebp) f %eax 
mov %eax,Oxlc(%edx) 
mov tebx,Oxffffff7c(%ebp) 

0x18 (%edx'i f %eax 


A t JS8 


b. 8 


i 6 

E. -364 


F, j6 

G. -^352 
fi ， -240 


J. -13 

K. 24 


mav 


练习题 2」8 答案 

从数学的视角来看，函数77[/和 U 2 r 是非常竒特的。理解它们的行为非常重要。 

解答这个问题，我们是根据二进制补码的值，重新排列练 d 题 2.16 的解答中的行，然后列出； A ： 
符号值作为函数应用的结果。我们展示出十六进制值，以使这个进程更加具体。 


X (十六进制) 


T -2 U ( x ) 


一 8 


A 


-6 


10 


C 


-4 


12 


F 


一 I 


\5 


0 


0 
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练习题 2.19 答案 

这个练习题测试你对等式 2.4 的理解 D 
对干开始的网个条0, J 的值是负的，并且 T 26 U ) = 

负的，并且 = i 

练习题 2.20 答案 

这个问题加强你对二进制补码和无符号表示之间关系的理解，以及对 C 语3升级规则 

( promotionrule ) 的影响的理解 a 网想一下， rWin 32 是-2147483648,并艮将它强制类型转换 为无符 
号数后，变成了 2147483648。 另外， 如東有任一个运算数是无符号的，那么在比较之釘，另…个运 
算数会被强制类型转换为无符号数。 


2\对了剩 h 的两个条 H ， ： r 的值是非 


+ 


表达式 


型 


求值 




无符号数 


-2147483640 


2147483648U 




有符号数 
无符号数 
有符号数 
无符号数 


-214748364S 


-2147432648^ 


< 


(unsigned,! -2 ； 474S3643 


^2147432^467 




-214748364S < 2147483^467 


[unsignedI -2147483646 < 214748364B 7 


练习题 2.21 答案 

在这些函数中的表达式是常见的程序“习惯用语”，用来从多个位域打包成的一个宇中提取值。 
它们利用不同移位运算的零填充和符号扩展属性。请注意强制类型转换和移位运算的顺序6在 flml 
中，移位是在无符号 word 上进行的，因此是逻辑移位。在 ftm 2 中，移位是在把 woix ! 强制类型转换 
为 int 之后进行的，因此是算术移位。 


A . 


funl ( w ) 


fun 2( w ) 


w 


127 


127 


127 


128 


128 


-128 


255 


255 


-l 


255 


0 


B . 函数 fiml 从#数的低 8 位中提取-个值，得到范围 0 〜 255 之间的一个整数 。 函数 fun 2 
也从这个参数的低 8 位中提取 - 个值，但是它还要执行符号扩展。结果将是介 f -128 〜 U 7 之间 
的一个数。 

练习题 2.22 答案 

对于无符号数，截断的影响是相当直观的，但是对于_进制补码数就不是这样的了。这个练 >J 
it 你使用非常小的字长来研究它的属性& 

正如等式 2.7 所描述的，这种截断无符号数值的结果就是发现它们的模8余数。截断有符号数 
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的结果要更复杂一些。根据等式 H 我们 旨先计 算这个参数模 S 后的余数。对 f 参数0〜7,这将 
得出值0 〜 7,对于参数 -S 〜 -1 也是一样。然后我们对这些余数应用函数 U 27 V 得出两个0 〜 3和 -4 〜 
1序列的反复。 


二进制朴码 

j $ 始铒 I 截嘶 后的败 I 原始教 I 截断后 的数丨 »m «断 后的数 


+六进制 


无符号 


0 


0 


0 


0 


0 


0 


0 


-8 


0 


A 


10 


-6 


F 


15 


练习题 2.23 答案 

这个问题是设计来说明从有符号数到无符号数的隐式强制类型转换是多么容易引起错误的啊。 
将参数 length 作为-个无符号数来传递看上去是件相与 H 然的事情，因为没有人会想到便用一个值 
力负数的 length, 停 lh. 条件 i<=length-l 看上去也很自然。但是把这两点组合到 一 起，将产 t 意想 
不到的结果！ 

K 为参数 lengih 是尤符号的，计算 ( hi 将使用尤符号运算来进行，这相当于模数加法。结隶是 
UMox , 2 (假设是32位的机器)。5比较冋样使用无符号数比较，而因为任意的32位数都是小 T 或者 
等于 f / WM 32 的，所以这个比较运算将一直持续下左！因此 f 代码将试图访问数组 a 的无效元素。 

有两种方法可以改正这段代码， 其-是 将 length 声明为 im 类型，其二是将 for 循环的测试条件 

改为 i < length 。 

练习题 2.24 答案 

这道>」题是对算木模16的简单示范，最容易的解决方法是将十六进制模式转换成它的无符号十 
进制值。对于非枣的 j 值，我们必须有然后，我们就可以将取补了的值转换 [ H ] 十六 


进制 


十六进制 


十进制 


十进制 


+六进制 


0 


0 


0 


0 


13 


D 


10 


F 


15 


练习题2,25答案 

这道习题是一个确保你理解 r 二进制补码加法的练习。 
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情况 


x 


X f 


y 


y 


x+y 


-16 


一 II 


-27 


[ 10000 ] 


1讎1] 


\ mm ] 




-16 


32 


[1 


[ 10000 } 


m T X 


mio 


■8 


-l 




IIUKK )] 


[00111； 


[mill 


-2 


[ 11110 ] 


[ 00101 ] 


[ 00011 ] 


-16 


16 


[ 01000 ] 


[010001 


[1 


练习题 2,26 答案 

这个问 1 使用非常小的字长来帮助你理解二进制补码的非 ( negation ) , 

对于 w = 我们有因此 -8 是它自己的加法逆元，而其他数值是通过整数非反來取 


非的 □ 




X 


十六进制 


+进制 


+进制 


+六进制 


-3 


D 


3 


一 8 


A 


6 


F 


一 1 


对于无符号数非，位的模式是相同的 D 

练习题 2.27 答案 

这道习题是一个确保你理解了二进制补码乘法的练习 


横式 


ft 断了的 xy 


X 




[ 110 ] 


[ 010 ] 


[001100] 

imiooi 


[ 100 ] 


无符兮数 
二进制补码 


12 


[U0] 


[0101 


—4 


[ 100 | 


-4 


[0011 


[出 I 


无符号数 

进制+卜码 


[000111] 

(mini 


[m] 


[ 001 ] 


一 1 


[ini 


[mi 


mu 


[oo]] 


无符？数 
:进制补码 


[in] 


49 


[110001] 
f000001] 


[111] 


[Ml] 


[ 001 ] 


练习 M 2.28 答案 

在第3章中，我们将看到很多实际的 leal 指令的例这个指令被提供用来支持指针运算，但 
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是 C 编译器经常用它来作为执行小常数乘法的种方法。 

对丁 it 的每一个值 t 我们可以计算出2的 倍数： 公（当 b 为 0) 和 2、1 〔当 b 为 ah : a 此我们 
能够计筧出倍数为1,2, 3, 4, 5, 8和1 

练习题 2.29 答案 

我们发现苎人们直接用汇编代码做这个练习时是有困难的。但当把它放入到 optarilb 所示的形 
式中，问题就变得更加清晰明 m 

我们可以看到 M 是15; 是作为 0：«4)-_t 来计算， 

我们⑷ 以看到 N 是4;当 y 是负数时，加上偏冒量 L 汴 F1 右移2位， 


练习题2,30答案 

这个 “C 的迷题”清楚地告诉程序员必须理解汁算机运算的属性。 

A, (x>= 0) II ((2*x)<0), 

假。设/等于 -2147483648 ( min r ), 那么，我们将得到2%等于0。 

B. (x&7) != 7 II Q«30 < 0). 

真。如果 Cv&7)!=7 这个表达式的值为0,那么我们必须有位&等丁 1。当左移30位时，这 
个位将变成符号位。 

C + (x >= 0c 

假。当 为65535 (OxFFFF ) 时，为 -131071 (OxFFFEOOO 1 ) 。 

D. x < 0II ~x <= 0^ 

真。如果^是非负数，则1是非正的。 

E. a; » 0 II -X >= 0 

假。设1为2147483648 ( TMin n ), 那么 x 和 i 都为负数， 


F. x^y == m^uy 


G, + uv + ia =- 乃、 

K-， 、等于 -x-h u 卢 ux 等于 W 此，左于边等价丁 -：c，-y+;c*y。 

练习题 2.31 答案 

理解二进制小数表小是理解稃点编码的一个重要步骤 g 这个练习 U: 你试验一些简单的例子。 

I ~~小数 a 


二进 制表示 


十进制表示 


aoi 


025 


0.011 


0375 


23 


1.01JI 


1.4375 


16 


11110 


2.40625 


32 
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(续表) 


十进制表示 


m 


二进制表示 


1] 


1 011 


1.375 


45 


101.)01 


5 ■仍 


8 


49 


3,0625 


1LOOOI 


16 


X 


考虑_进制小数表示的个简单方法是将…个数表示为形如士的小数。我们能够将这个形式 


2 k 


表示为，进制，过 稈是： 使用的一进制表承，并把二进制小数点插入从右边算起的第 fc 个位置 


23 


举-个例了，对于我们有 23 w = 10111,. 然后我们把二进制小数点改在从右算起的第四位, 


16 


得到 1 + 0111 3 0 

练习题 2.32 答案 

在大多数情况中，浮点数的有限精度小是主要的问题，因为计算的相对错误仍然是相当低的。 
然而在这个例 +口， 系统对于绝对误差是很敏感的。 

A. 我们吋以看到 JC-0.1 的二进制表示为： 


0. OOClOOOOOOOOOCODOOOOOOOOllOD [11001 -- 


-20 


把这个表示与1的二进制表示进行比较，我们可以看到这就是2 


,也就是大约154 x 


X — 


10 


10 


10" 


B, 9 + 54x 10" Q xl00x60x60x10^ 0343, 

C. 0,343 k 2000 ^=687, 

练习题 2.33 答案 

研究非常小的字的浮点表示能够帮助澄清 IEEE 浮点是怎样工作的。要特别注意非规格化数和 
规格化数之间的转换。 


位 


E 


M 




0 0C 0C 


0 


G 


00 0： 


0 


[} a 10 


0 


00 ：1 


0 


0 



(续衣) 


位 


E 


M 




e 


0 D1 00 


0 


0 Cl Q1 


0 


0 01 10 


0 


0 01 


0 


4 


0 ；0 DO 


2 


4 




U 10 01 


4 


2 


t > 


12 


0 10 10 


14 


n lo n 


n l] od 


o ;i 01 


NaN 


0 11 10 


腳 


0 11 11 


NoN 


练习题 2.34 答案 

十六进制 0 x 354321 等价于 二进制 [1101010100001 100100001] 。将之右移21位得到 
M 01010 I 00001100100001, x 2 31 , 我们通过除去起始位的 1 并增加 2个0 形成小数域，从而得到 
tmOlflUXKXmoOlOOOOlOO 〗。 指数是通过21加上偏貢量127形成的，得到 148( 二进制 [10010100 J )。 
我们把它和符号域0联合起来， 得到二 进制表示 


[01001 010010 _10000_ 100001001 

我们看到这两个表达式的相关性是，整数的低位到最髙有效位等于 l f 匹配小数的高21 位: 


0 


2 


ODOOODGOOOl]01010100G01100100001 




A 


5 


C 


01003 0100101C10100 00110010300100 


练习题 2.35 答案 

这个练习帮助你思考什么数是不能用浮 点准确 表示的 。 
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这个数的二进制表 示是： 1后面跟着《个0,其后再跟1,得到值是2 
当打= 23时 + 值是2% 1 = 16 777 217, 

练习題2,36答案 

般来说，使用库宏 (library macro) 会比写你自己的代码更好一些。然而，这段代码似乎可以 
丄作在多种机器上。 

我们假设值 te400 溢出为 t 九 




code/data/ieee. c 


1 #define POS_：NFINITV le400 

2 Mefir.e NEG_I^FINITY {-POS_INFINITY) 

3 #define NEG^ZERO (-1,0/POS.XNFINTTY) 


code / data / ie ^ e , c 


练习题 2.37 答案 

这样一个练习可以帮助你提高从程序员的角度来研究浮点运算的 能力。 
确信自己理解卜面每-个答案。 

(int)(float) 

错，例如当为7^0^时。 

(int)(double) x 

对，因为 double 类型比 int 类型具有更大的精度和范围。 

(float)(double) f 

对，因为 double 类型比 float 类型具有更大的精度和范围。 

D.d == ( float ) d 

错，例如，当 d 为 k40 时，我们在右边得到+% 


A. x 


X 


B. x 


C. f 


E. £ 


对，因为浮点数取非就是简单地对它的符号位取反。 

2/3.0 


F . 2/3 


2 


错，左边的值将是整数值0,而右边的值是浮点数 f 的近似值 


G. (d 


0.0) II ((d*2) 

对，因为乘法是单调的。 

■ (d+f)-d =- f 
错，例如是而 f 是1时，左边将是/V抓，而右边将是1 


0 
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第 3 


仵用高级语芑如 C 语言编程时，我们被屏蔽了程序具体的机器级实现。相比之卜，在用汇编代 
码写稈序时，程序员必须明确指定程序该如何管理存储器 （memory) 和用来执行计算的低级指令。 
大多数时候，在高级语言提供的较高抽象级别上丄作会更有成效和叶靠。编译器提供的类型检査能 
帮助你发现许多程序错误，并能够保证我们是按照一致的方式来引用和管理数椐的。使用现代的忧 
化编译器，产牛 1的代码通常至少与一个熟练的汇编语1程序员 fa 编写的代码一样冇效。最好的 - 
点就圯，坩高级语 言编写 的程序吋以在很多不同的机器 k 编译执行，而汇编代码则是3特定机器密 
切相关的。 

虽然町以使用优化编译器，但是对 T 严谨的程序员来说，能够阅读和理解?1：编代码仍是一项很 
重婪的 技能。6动编译器时带上适当的选项，编评器就会产生，个汇编代码文件，汇编代码非常接 
近于 M 算机执 tr 的实际机器代码。4 n 标代码的二进制格式相比，它的主要特色在于它采用的是更 
加芴读的文本格式。通过阅读这些汇编代码，我们能够理解编译器的优化能力，并分析出代码中潜 

在的低效率 。 就像我们将在第5章中看到的 那样， 一个试图优化 一段关 键代码性能的稃序员，通常 
会尝试源代码的各种形式，每次编译并检査产生出的汇编代码，从而 f 解程序将要运行的效率是如 
何的。此外，也有些时候，高级语言提供的柚象 M 会隐蔵我们想要理解的一些信息，如程序的运行 
时打力。例如，第]3章中会讲到，线程包写并发程序时，知道用何种存储 (storage) 来保存各 
种程序变1是很重要的，而这些信息在汇编代码级是可见的。程序员学习汇编代码的需求随着时间 
的推移也发生了变化，什始时是要求程序员能肖:接用汇编语言编写程) ts 现在则是要求他们能够阅 
读和理解优化编译器产生的代码。 

在本章中，我们将学习某种? r 编语言的详细内容，明白 c 稃序是如何编译成这种形火的机器代 
码的-为了阅 i 卖编译器产生的汇编代码，除了具备 f- 工编写汇编代码的能力外，述包括其他-些技 
能4我们必须/解典型的编译器在将 c 程序结构变换成机器代码时所做的转换。相对 f c 代码中表 
示的计算操作，优化编译器能够重新排列执彳 T 顺序，消除不必 要的计 算并替换慢速操作，例 如用加 
法和移位來代替乘法，甚至于将递归计算变换成迭代 i 十算。理解源代码与对应的汇编码的关系通常 
不太鲜易一"就像要拼出一幅跟盒了上的图片设计有点不太一样的拼图。这是一种逆向工程 (reverse 
engineering) ——通过研究系统和逆向」作，宋试着：解系统被创建的过程 4 在这个情况巾 t 系统 
是-个机器产屯的1 编语言 程序，而不是由人设 i 十的某个东西。这简化了逆向 [程 的任务，因为产 
生的代码遵循相2规则的糢式，且我们可以做试验， 〔L 编译器产生许多不冋秤序的代码，仵我们的 
表述中，给出 /i 彳多示例和练来说明汇编语 I和编译器的各个方面。精通钿竹是理解更深和更 
基本概念旳先决条件，花点时间研宄这苎示例并完成练习是非常值得的， 

下面，我们简要回顾 Imel 的体系结构， Intd 处理器从1978年郅个相当简箏的16位处理器发展 

而来，现在已经成为 r 桌闹计 算机的 t 沆机器。隨着新特性的加入，体系结构也在相应地成长，从 

16位体系结构转变成了支持32位数据和地址的结构。32位结构是相当奇怪的设计，有些特性只有 

从历史的角度宋看才有息义。它还负担着提供后向兼容性的仟务，这是现代编译器和操作系统+耑 

要考虑的 W 题。我们将关注的是那些被 GCC 和 Linux 使用的特性的了■集，这枰可以避免许多复杂性 
以及 IA32 的隐秘特性。 

我们的技水讲解是从快速 S! 览 C、 汇编代码以及目标代码之间的关系开始的。然后会讲到 IA32 
的细节，从数据的表示和处理，及控制的实现开始 。 我们会看到如何实现 C 语言屮的控制结构，如 
if、while 和 switch 语句。这时，我们会讲到过程的实现，包括运行栈是如何支持过程间数据和控制 
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的传递， 以及局 部变董的存储 （ storage), 接着，我们会考虑在机器级如何实现像数组、结构和联合 
( union ) 这样的数据结构。有了这些机器级编程的背景知识，我们会看看存储器访问越界的问题， 
以及系统容易遭受缓冲 K 溢出攻击的问题。在这一部分的结尾，我们会给出…些用 GDB 调试器来 
检查机器级程序运行时行为的技巧。 

接下来是标 f 星号 

点代码的支持。这是 IA 32 /个非常不可思议的特性，所以我们只建议那些决心要使用浮点代码的 
人来学习这个部分。我们还简要介绍了一卜 GCC 对在 C 程序中嵌入汇编代码的支持。在某些应用程 
序中，程序员必须要用汇编代码来访问机器的某些低级特性。这时，嵌入汇编代码就是最好的方法。 


的内容，这是为专门的机器语言爱好者准 备的。 我们讲述了 1A32 对浮 


« * ” 


3.1 历史观点 

Intel 处理器系列的产生是 - 个长期的、不断进化的发展过稈。它开始于一个单芯片、16位微处 
理器，由于当时集成甩路技术水平 f 分有限 t 其中不得不_了很多妥协。从此以后，它不断地成长， 
利用技术的进步去满足更高性能和支持更高级搡作系统的需求 D 

下面的列表展示了按照时间顺序排列的 Intel 处理器模型，以及它们的一些关键特性。我们用实 

而 M 表示 1000000X 

: (1978 , 29 K 个晶体管）。它是第■-代单芯片，16位微处理器之一。8088,即 80S6 加上 
8位外部总线 Cexternal bus), 构成最初的 IBM 个人计算机的心脏。 IBM 与当时还很小的微软签订 
合 RK 开发 MS-DOS 操作系统。最初的机器型号有32 768字节的存储器和两个软驱（没冇硬盘驱 
动器夂从体系结构上来说，这些机器只有655 360宇竹的地址空间——地址只有20位 K ( 1 048576 
字节可被寻址)，而操作系统保留了 393 216字节自用 6 

80286： ( 1982, 134K 个晶体管)。增加了更多的寻址模式（有些现在己经废弃/)。构成了 IBM 
PC-AT 个人计算机的基础，这种计算机是 MS Windows 最初的使用平台。 

i386: (1985, 275K 个晶体管)，将体系结构扩展到32位 6 增加了平面寻址模式 (flataddressing 

mode】)，Linux 和最近版本的 Windows 系列操作系统都是使用的这种模式，这是 Intel 系列中第一台 
支持 Unk 操作系统的机器。 

i486： (1989, L9M 个晶体管乂改善了性能，同时将浮点箏元集成到处理器芯片上，但是没有 
改变指令集。 

Pentium； (1993, 3.1M 个晶体管) 9 改善了性能，不过只对指令集增加了小的扩展。 

PentiumPro ： (1995, 6.5M 个晶体管X引入全新的处理器设计，在内部被称为 P6 微体系结构。 

指令集中增加了一类“条件传送 (conditional move) w 指令 。 

PentiumflVIMXr (1997, 4.5M 个晶体管）。在 Pentium 处理器中增加了处理整数向貴的新指令 

类。每个数据可以是1、2或4个字节长4每个向暈总长64位， 

Pentium n ： ( 1997, 7M 个晶体管 h 通过在 P6 微体系结构中实现 MMX 指令，合并了以前分 
离的 PentiumPro 和 Pemium/MMX 系歹[| q 

PentiumIU : (1999, 8.2M 个晶体管)。引入另一类处理整数或浮点数向暈的指令，每个 数据可 

以是 K 2或4个字节长，打包成128位的向量，由于在芯片上包括广二级高速缓存，这种芯片后来 
的版本最多使用了 24M 个晶体管。 


现这些处理器所需要的晶体管数量来表明它们复杂性的演变过程 (K 表示1_ 


I 




106 


Pentium 4： (2001, 42M 个晶体管) 。 在向量指令中增加了 8字节榷数和浮点格式，以及针对 

送些格式的144个新指令。在编号惯例上， Inld 不再使用罗马数字。 

每个时间上相继的处理器设计都是后向兼弈的——也就是 * 较早版本卜编译的代码是可以在较 
新的处理器 h 运仃的 & 正如我们会看到的那柞，为了保持这种进化传统，指令集中有许多非常奇怪 
的东丙 。 Intel 现在称其指令集为 IA32, 也就是 “Intel 32位体系结构 （Intel Architecture 32-bit)' 这 

个处理器系列也俗称为 “x86' 反映出直到 i486 的处理器命名惯例。 

旁注> 为什么不叫1586? 

Intel 泛有继续沿用他们的數字命名憤例 * 是因为他们无法获得 CPU 编号的商标保护.美国商 
标局不允许用数字作为商标 a 因此，他们创造了 "Pentium" 这个词，用的是希賸词根 
这是他们的第五代机器+从此以后，他们就使用这个词的变体，即使 PentiumPro 是第六代机» (因 
此内部称为 P 6), 而 Pentium 4是第七代。每出现新的一代都包括处理器设计中的一个很大的变化* 


表明 


旁注： 摩尔定律 （ Moore's Law ) 


1.0E+08 


1.0E+0? 




教 


1.0E+06 






畦 


10E + 05 


1.0E + O4 


1975 1980 1985 1990 1995 2000 2005 


年份 


如果我们画出上面列出的各种 IA 32 处攻 器中晶体管的数量与它钔出现的年价之间的图，并且 

使 Y 轴为晶体管數的对數值，我们能够看出，增长是很篡著的.划一条戏穿过这些数据，我们着到 
晶体管數量以每年<约 33% 的比率增加，也就是说，每 30 个月 A 体管教量就会_一备.在 1 A 32 的 
历史上，这种增长已经持续了大约 25 年. 

1965年， Goidon 

造有大约 64 个晶体管的电珞，做出推断，预测在未来 10 年内，每年芯片上的晶体管數壹都会翻一 

番。这个预測就称为摩尔定律 • 正如事实证明的那样，他的预測不仅有点乐％,而且太短祝了.在 
它四十多年的历史里，半导体工业能够每 is 个月就将 A 体管数 a 加倍. 

对计算权技术的其他方面，也有类似的呈指数性增长的情况出現，比如磁盘容量，存储器芯片 
容量，和处理器性能， 


Intel 公司的创始人，根振当时芯片技术，也就是能够在一个芯片上制 


[1555! 


这些年来，有;I家公司生产出了与 Intel 处理器兼容的处理器，它们能够运行完全相同的机器级 
程序。其中，领头的是 AMD 公司。数年来， AMD 的策略一直是在技术I:紧跟在 Intel 后面，生产 
性能稍低但是价格更便宜的处理器。最近， AMD 已经生产出了一些顶级性能的 IA 32 处理器 t 这些 
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处理器是第 一个突 破商业可用微处理器 1 G 时钟速度门槛的，虽然我们会谈到 Intel 处理器 f 仴是这 
些描述对 imd 的竞争对手生产的兼容处理器也 R 样适用。 

对由 GCC 编译器产生出的、运行在 Linux 操作系统平台上的程序，感兴趣的人并没关注到 1 A 32 

复杂性的大部分，最初的8086中的存储器模型和它在80286中的扩展都己经过时了。作为替代， 
Limix 使用了平面寻址方式 (flat addressing ), 在这神寻址方式中，程序员将整个存储空间看做一个 

大的宇节数组。 

从列出的发展过程中，我们可以看到， IA 32 中加入了很多处理小整数和浮点数向章的格式和指 
令。增加这些特性是为了提卨多媒体应用程序的性能.例如图像处理、音频和视频编码和解码，以 
及-维计算机图形。不幸的是， S 前版本的 GCC 产生的代码不会使用这些新特性6实际上，在默 
认启动方式 F , GCC 会假设它是为一个 i 386 机器产生代码，编译器不会试图使用许多添加到现在 
看来己经非常老的体系结构的扩展特性。 


3.2 程序编码 

假设我们写一个 C 程序，有两个文件 PU 和 pZc。 然后我们用0|^命令行编译这段代码： 

gcc -02 -o p pi .c p2 .c 

命令 gcc 表明的訧是 GNU C 编译器 GCC。 因为这是 Linux 上馱认的编译器，我 们也洱 以简竿 
地用 CX 来启动它9编译选项 -02 告诉编译器使用第二级优化。通常，提高议化级别会使最终程序 
运行得更快，但是编泽时间可能会变 K， 对代码进行调试会更 困难。 第二级优化是性能优化和使用 
方便之间的一种很好的妥协。本书中所有的代码都是用这个优化级别进行编译的。 

这个命令实际上调用了一系列程序，将源代码转化成吋执行代码，首先， C 预处理器会扩展源 
代码，插入所有 /fj#include 命令指定的文件，并扩展所有的宏。其次，编译器产生两个源文件的汇 
编代码，名字分别为 pl.s 和 p2, S 。 接下来，汇编签会将汇编代码转 化成二 进制目标代码文件 pl.o 和 
P 2.o。 最后，链接器将两个目标文件与实现标准 Unix 库函数（例如 primf) 的代码合并，并产生最 
终的町执行文件。我们会在第 7 章中更详细地介绍链接。 


umx> 


3.2.1 机器级代码 

在整个编译过程中，编译器会完成大部分的工作 f 将把用 C 提供的相对比较抽象的执行模型表 
示的 程序转化成处理器执行的非常基本的指令。汇编代码表示非常接近 f 机器代码。与 S 标代码的 
二进制格式相比，汇编代码的主要特点是用可读性更好的文本格式表示的。能够理解汇编代码以及 
它是如何与原始的 C 代 码相对应的，是理 解计算 机如何执行程序的关 键一步 t 

汇编程序员看到的机器与 C 程序员看到的机器差别很大。一些通常对 C 程序员屏蔽的处理器状 
态是町 见的： 


程序汁数器（称为 ％ dp ) 表小将要执行的下一条指令在存储器中的地址。 

整数寄存器文件包含8个被命名的位置，分别存储32位的值。这些寄存器可以存储地址(对 
应于 C 的指针）或整数数据。有的寄存器用来记录某些重要的程序状态，而其他的寄存器 
用来保存临时数据，例如过程 的局部 变量。 

条件码寄存器保存着最近执行的算术指令的状态信息。它们用来实现控制流中的条件变化, 


帶 



108 


比如说闬来实现 if 或 while i 吾句， 

• 浮点寄 行器文 件包貪8个位置，用宋存放浮点数据。 

虽然 c 提供 r 一种模型，可以在存储器中声明和分配各种数据类型的对象，但是汇编代码只是 
简单地将冇储器看成个很大的、桉字节寻址的数组 6 C 中的聚集数据类型，例如数组和结构，在 
汇编代码中是 ffl 连续的字节夜不的。即使是对标量数据类型，汇编代码也不区分有符号或无符号整 
数，不区分各种类型的指针，苠至于不区分指针和笹数。 

稃序存储器 (program memory ) 包含程序的 H 标代码，操作系统需要的一些信息，用来管理过 
秤 i 周用和返冋的运行时栈，以及用户分配的存储器块（比如说用 ma ] k>c 库函数分配的)。 

稃序冇储器是用虚拟地址来寻址的。在仃意给定的时刻，只有有限的一部分虚拟地址是合法的。 
例如，虽然 IA 32 的32位地址可以寻址 4 GB 的地址范_，但是一个通常的程序只会访问几 M 字节, 

操作系统负责管理虚拟地址空间，将虚拟池址转换成实际处理器存储器 （processor memory ) 中的物 

理地 hh 


一条机器指令只执行4常基本的操作例如，将两个存放在寄存器屮的数字相加，在存储器和 
寄存器之 N 传递数据，或是条件分支转移到新的指令地址。编译器必须产生这些指令序列，从而实 
现象筧术表达式求值、循环或过程调用和返回这样的枵宇结构 D 


3.2.2 代码示例 

假设我们写/一个 C 代码文件 codex, 包含下面这样的过稈定义: 


0 


accam 


3 


int sum(int x f int y] 


y 


accum += 


return t 


在命令行 1: 使用 “-S” 选项，就能看到 C 编译器产生的汇编代码 


unix> gcc -02 - S code * c 


这会使编译器产生一个汇编文件 rade.s, 但是不做其他进一步的工作（通常情况下，它还会调 
用汇编器产 itn 标代码文件)。 

GCC 是按照它自 己的格 式产生汇编代码的，这种格式称为 GAS( Gnu Assembler, GNU 汇编器X 
我们的讲述是蓽 L 这种咯忒的，它同 Intel 文档中的格式以及微软编译器使用的格式差异很人。从参 
考文献说明中可以获得关于如何找到各种 fr 编代码格式文朽的建议。 

汇编代码文件包含各种声明，包括 K 面 所小： 


sum ： 


push] %ebp 
movi %esp,%ebp 

movl 12(%ebp) f %eax 

addl 8(%ebp),%eax 
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addl %eax f accurr 

movl %ebpi%esp 
popl %ebp 


ret 


上面代码中每个缩进去的行都对应于一条机器指令 0 比如， pushl 指令表小应该将寄存器 ％ebp 
的内容质入程序栈中。这段代码中已经除去了所有关于局部变量名或数据类型的倍息，但我们还是 
看到/一个对全 M 变量 accimi 的引用，这是因为编译器还不能确定这个变量会放在存储器中的哪个 


位置 . 


如果我们使用命令行选项， GCC 会编译并汇编该代码 


unix> gcc -02 -c code - c 


这就会产生 3 标代码文件 codex ), 它是二进制格式的，所以无法肓接读^ 852字节的文件 code.o 
中有一段19字节的十六进制表示的序列： 

55 89 Bb 4S Oc 03 45 08 01 05 00 00 00 00 89 ec 5d c3 

这就是对应 T - 上面列出的汇编指令的 H 标代码。从中得到的重要佶息就是，机器实际执行的程 
序只是对一系列指令进行编码的字节序列。机器对产生这些指令的源代码儿乎一无所知。 

旁注：如何找闺程序的字节表示？ 

首先，我们用反汇编器（待会儿会讲到的）来肩定為教 sum 的代 碑长是 19字节 • 然廣，我们 

在文件 code . o 上运行 GNU 调试工其 GDB , 褕入 命今： 

Igdb ) x/ 19 xb s 

这奈命令告诉 ( H)B 检査< «写为 } 19个十六进**格式<也颺罵为 ) 的字节 （ 铒写为 ). 
你会发现， GDB 有很多有》的特社可61用来分析权 ft <1麻序，我部余在 3-12 节中讨论这个问 

要查看目标代码 文件的 内容，有一类称为反 汇编器 （ disassembler ) 的程序的价值无法估量，这 
些程序根据 H 标代码生成一种类似于汇编代码的格式。在 Limix 系统中，带 “- d ” 命令行选项的程 
序 OBJDUMP C 代表 " objectdump !, )可以充当这个角色： 


\9 ili 


objdump - d code,o 


unix> 


结果是〔这里，我们在左边增加 r 行号，在右边增加/注解): 


Disassembly of function sum in file code.o 
00000000 
Offset Bytes 




<sum> 


Equivalent assembly language 

push %ebp 

feesp,%ebp 

Oxc(%ebp), %eax 
0 x 8(% ebp),%eax 

% eax ,0 x 0 

%ebp f %esp 
iebp 


0 


55 


w 

■ 


1 ： 89 eb 


mov 

mov 

add 

add 

mov 


4 


3: 


8b 45 0c 
03 45 08 

01 05 00 00 00 00 


5 


6 


9 


89 


ec 


3 


11: 5d 


pop 

ret 

noo 


9 


12 


c3 


10 


13 


90 


■ 

■ 




no 


在左边 * 我们看到按照前 it] 给出的字节顺序排列的 i9 个十六进制字节值， 它扪 分成了一抄 m, 
每组有1〜6个字节。每组都是-条指令，右边是等价的汇编语言。其中一些特性值得 说明： 

IA32 指令长度从1 〜 15个字节不等 & 指令编码被设计成使常 HJ 的指令以及操作数较少的指 
令所盂的字节数少，而那些不太常用或操作数较多的指令所需字节数较多。 

• 指令格乂是按照这样种方式设汁的，从某个给定位置开始，可以将宁节惟一地解码成机 
器指令。例如，只有指令 pushl%ebp 是以字节值55开头的。 

_反汇编器只是根据目标文件中的字节序列来确定汇编代码的。它不需要访问裎序的源代码 
或汇编代码。 

• 反汇编器使用的指令命名规则与 GAS 使用的有些细微的差别。在我们的示例中，它省略 r 
很多指令结尾的“1 

• ^code.s 中的 c 编代码相比，我们还&现结尾多了条 nop 指令。 这条指令根本4、会被执行 

(它在过程返回指令之后)，即使执行了也不会冇任何澎响(所以称之为 nop , f ao operation ^ 
的简写，通常读作 "tioop”)， 编译器插入这样的指令是为了填充4储该过稈的苧间。 

生成实际町执行的代码需要对组目标代码文件运行链接器，而这一组口标代码文件中必须 A 
有一闲数。假设在文件 mi n .c 中冇下面这样的 函数： 


« 




inL main() 


returr. sum (1, 3) 


然后，我们用如 F 方法生成町执行文件 test 


unix> gcc -02 prog code.o m^in,c 


文件 prog 变成了 U667 字节，因为它不仅包含我们的两个过程的代码 t 还包含了用来启动和终 
稈序的信息，以及用来与操作系统交互的信息 & 我们也可以反汇编 prog 文件 r 

objdump，d prog 

反汇编器会抽取出各种代码宇列，包括 f 面这 段： 


i:mx> 


Disassembly of function sum in executable file prog 

<sum> : 

8048JM: 5b 

80483 b^i 
80483b7 ： 

80483bar 
80483bd ： 

80483c3: 

80483c^; 5d 
80483c6 ： c3 

80483C7 ： 


1 080433b4 


push 

mov 

mov 


^ebp 

%esp f %ebp 

Oxc(%ebp ),%eax 
0x8(%ebp),%eax 

0 x 3049464 
%ebp t %e&p 
%ebp 


89 eS 
8fc 45 0c 
03 45 08 

01 0b 64 94 04 08 

89 ec 


add 


add 


mov 


pop 


ret 


10 


nop 


注意，这段代码 4 codec 反汇编产生的代码儿乎完全-样。一个 t 要的区別是左边列出的地址 

一链接器将代码的地址移到一段不同的地址范围。第二个不同之处在于链接器终 f 确定存储 
全局变量 accum 的地址 code.o 反汇编代码的第 6 行中， 


的地址还是0。 prog 的反汇编代码 


accum 




程序的机器级表示 
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屮，地址就设成了 0x8049464, 这吋以从指令的汇编代码格式中看到，还玎以从指令的最后四个字 
节中看出来，从最低位到最高位列出的就是64940408。 


3.2.3 关于格式的注解 

GCC 产生的汇编代码有点难读，它包含一些我们不需要关心的信息6另外，它不提供仟何程序 
的描述或它是如何工作的描述，例如，假设文件 simpler 包含下列 代码： 


int simple(int int y} 


int t = *xp 

*xp - t; 

return t; 


y; 


3 带选项 “- S ” 运行 GCC 时，它产生下面的文件 simpler 


.file "iimple*c 
■version 
gcc2_compiled. 

* texL 

.slign 4 

.globl simple 

• type 

siirple ； 

pushl %ebp 
m^vl %esp,%ebp 
movl 8(%ebpl,%eax 
movl (%ea.x) , %edx 

12 t%etop),%edx 

msvl %edx,(%eax) 

movl %edx P %eax 
movl %ebp,%esp 
popl %ebp 
ret 

*Lfel : 

, si 2 e 
iident 


01,01 


ip 


simple,©function 


simple,.ifel-simple 

GCC ： (GNU) 2.95,3 20010315 (release) 


文件包含的信息多于我们实际需要的 t 所有 以“， 开头的打都是指导汇编器和链接器的命令 
Cdilative), 不过我们通常可以忽略这些行。另一方面，也没有关于这些指令是 K 什么用的以及它 
们与源代码之间关系的解释说明 D 

为/更清楚地说明汇编代码，我们将给 出汇编 代码的格式，包括行号和解释件说明。对子我们 
的小例，带解释的汇编代码是像下®这 样的： 


simple: 
pushl %ebp 
movl %esp f %ebp 
movl 8 (%ebp) f ?eax 

movl {%eaxj r %edx 


2 


Save frame pointer 
Create new frame pointer 

Getxp 
Retrieve *xp 
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addl 12 (%ebp) F %edx Addy to get t 
movl %edx ； (%eax) 

movl %edx,%eax 
movl %ebp,%esp 
popl %ebp 

ret 


6 


Sloretat *xp 

Set i as return value 


Reset slack pointer 

Reset frame pointer 

Return 


10 


11 


通常我们只会给出与要讨论内容相关的代码行 D 每一打的左边都有编号供引用，右边是注释， 
简单地描述指令的效果以及它与原始 c 代码中的 I 十算操作的关系。这是一种汇编语言程序员写代码 
的风格 4 


3.3 数据格式 


由于是从16位体系结构扩展成32位的， Intel 用术语“字 （word 广表不16位数据类型。因此， 
称32位数 A “双字 (double words 称64位数为“四字 （quad worcb )”。 我们将遇到的人多数指 

令都是对字节或双字操作的。 

图3.〗给出了对应 C 基本数据类型的机器表示。注意，人多数禽用数据类型都是作为双字存储 
的。其屮，包括将通整数 ( mt ) 和整数 ( longint ) , 无 论它们是否有符号。此外，所有的指针（在 
此用 char * 表小）都是4字打的双字 D 处理字符串数据时，通常用到字节。浮点数有5神形 式：单 
精度 （4 字节）值，对应于 C 数据类型 float ; 双精度 （8 字节）信，对应于 C 数据类型 double : 和 
扩展精度 （10 字节）值。 GCC 用数据类型 long double 来表承扩展精度的涔点值。为了提高存储器 
系统的性能，它将这杆的浮点数存储成12字节数 f 待会儿我们会讨论这个问题，虽然 ANSI C 标准 
包括 long double 数据类型，但是对大多数编译器和机器组合来说，它的实现和普通 doable 的 S 字诗 
格式是一样的。对 GCC 和 1 A 32 的组合来说，支持扩展精度是很少见的。 


C 声明 


Intel 数据类型 


GAS 后鑣 


大小（字节) 


字15 


char 


short 


宇 


双字 


nt 


m- 


ungignea 


long int 


双字 


unsigned long 


M7- 


char 


双字 


f I oat: 


帽度 


双犄度 


double 


ior.g double 


扩展精度 


10/12 


3.1 标准数据类型的大小 

如图3+1所示， GAS 中的每个操作都有一个字符后缀，表明操作数的大小。例如， 

数据）指令有二种 形式 ： movb (传送字打）、 

表示双字 t 因为在许多机器上，32位数都称为“长字 （long word )' 这是沿用以16位字为标准的 


(传送 

(传送字）和 mov 】 （传送双字后缀“1”用来 


mov 


movw 
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时代的习惯追 成的 . fttr G 4 S 仗 Ns 明 u r 苌冋时肩 宇帘的 ffi » 利 B 乎节的爷 ft 度浮点 jft 
这不 会产屯 K 义. 囡为 if 点 数 使闭的 是 ■组 定全 不同的播令和哥存器* 


14汸问傕 

一+ [ ak 中央处理_元 《 cpu ) 包盏一绀八个存 ttHtie 的寄作器， 

1.2显示 r 这八个芾存播，它 n 的 fcfffii 以开 尖的， 不过它扪柿有特株的名 

宇_在最初 ft BOi* 中,寿存 Stifi 位的 ■ 每个齡有恃殊 的用逯 ■ 瓊錄的 fcltKJWH 来£映##用 
紙 4平_^:中 ., 对特殊寄存 a 的_求 se 大光降》了,塞*多敷靖况中, 截六 个掰存 M 哥 

以打 哚通用布存 器. 对它们的使币没有阳制，我们晚"庄大多 t 情況中' 蚨阑为有哞指令雄以尚定 
的奇 打罌阼为涵和/或 y _ 的，在过 R tproctA ^ ttfl 中，刈 

胸处】 的供存和恢复憤 •螓不 R 子 HT* 的：个 寄存雪 ( Mhu %cdMD4tt|> P » 们查在 3J f 

中讨此加以讨论. iftiW 个奇存治 ；％Ap 保存着指向粹序 ft 中■艰位 W 的指_ R 有附 

撕找 1 1的标推 ffl 柄才能»改这 W 个寄存器中的 (ft , 


I &数椐和疳计 


个寄 # S 


I：IJ 




31 


IS 


%-vni 


le-i 1 


IdL 


l i +ip 


P 


mm 


———— 

B-ll.kJI 


bp 


ffi 3-2 _ Sf 寄存器 

SftfA 个贿 hb 可⑽ Ai& 也 o flHi? =«KNh ifeflfemi isn*p) tWfrJKPrW-tttft'f p. 

如 fti ： U 所士宇节搡作描令可以植 i 地读或*四个钵 * 器的_个低佐字 f ， 8明办 中提供 
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这样的特性是为 f 后 向兼容8008和8080, 8008和8080是两款可以追述到1974年的微处理器。当 

-条字节指令更新这些单字节“寄存器 元素” 中的一个时，该寄存器余下的二个字节不会被改变& 
类似地，字操作指令可以读或者写每个寄存器的低16位。这个特性源自 IA 32 是从16位微处理器 

演化而来的6 

3.4.1 操作数指示符 

大多数指令 有-个 或多个操作数 Upland ), 指小出执行一个操作中要引用的源数据值，以及 
放置结果的目的位置。 IA 32 支持多种操作数格式（图 3.3) d 源数据值吋以以常数形式给出，或是从 
寄存器或存储器中读出，结果司以存放在寄存器或存储器中 a 因此，各种操作数的吋能性被分为-: 
种类型 D 第…种是立即数 ( immediate ), 也就是常数值。在 GAS 中，采用标准 C 的表小方法，立即 
数的书写方式是后面跟一个整数，比如， $-577 或 $0 xlF 。 任何32位的字都可以用做立叩数， 
不过汇编器在吋能时会使 ffl —个或两个字节的编码。第二种类型是寄存器 （ register )， 它表小某个 
寄存器的内容，对双字操作来说，可以是八个32位寄存器中的一个 （如 ％ eax )， 对字节操作来说， 
可以是八 个申字 节寄存器兀素中的 个 （如 ％ al )。 在我们的图中，我们用符号来表示仟意寄存器 
用引用 R[EJ 来 表小它 的值，这是将寄存器集合看成一个数组 R ， 用寄存器标识符作为索引。 

第二.类操作数是存储器引用，它会根据计算出來的地址（通常称为有效地址）讷问某个存储器 
位置。因为将存储器看成个很大的字节数组，我们用符号 MjAddr ] 表示对存储在存储器中从地址 
Addr 开始的 b 字节值的引用。为了简便，我们通常省去写在 卜方的 b 。 

如图 3.3 所小，有多种不同的寻址模式，允许不 R 形式的存储器引用 D 表中底部的 Irmn ( E fr ， Ey ) 
是最通常的形戎。这样的引用有四个 部分： 一 个立即数偏移 Imm ， 一个基址寄存器^,个变址或 
索引寄存器 E ; 和一个伸缩因子 （scale factor ) j ，这里 s 必须是1、2、4或者8。然后，有效地址被 
计算为 /™n + R[EJ + R[EJ i 引用数组元素时，会用到这种通用形式，其他形式只是这种通用难 
式的特殊情况，省略了某些部分。正如我们将看到的，当引用数组和结构元素时 f 比较 t 杂的寻址 
模式是很有用的。 


a, 


» 作败懷 


型 


■数 

寄存器 

寄存器 


立即数 5址 

寄存器#址 

绝对寻址 
间接#址 

(苺址 +偏移 *) d 址 




眼] 


imm 


(rj 


_ EJ 3 

Mf / mmfRlEtl ] 

M[R ⑸ 1+R[EJ] 

M[J_R[Ei]+R[E 』 l] 

M[R[E r ]- s | 

MlRlEil + RlE ,] 
M[Jmm+R[Ei]+R[Ej] -s] 


奇#器 


fmm( Ej?} 
( R ^ E .) 

t ；,) 

( 九 s) 
lmm{ , Ej, s) 

(Et, E,, s) 
ImmiEt ， E, f s) 


姑器 


«址 


器 


3 址 




伸缩化 的变址 i ? 址 
伸缩化的变址 
伸缩化的变址 Ti 址 
忡缩化的变址#址 


抑器 


純器 




图 3 . 3 操怍数格式 

操怍数可以农示立即数（常数> 值、寄存器值或是来 U 存储器的值。柙缩因必须是 I 


4或者8 
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珠勾鼈31 

fltit 下 & 的值存■枝在的存捕馮地舢釦寄冉忒 争 








CiFF 


^ A ： d-ii 


?iir 


i^xiua 


Q^ill 


Soc：fliT 


Onll 


球 3 JTMt P 玲 14 鮮示 機# 數 的值; 


« ft » 




QkLD 4 


la-stiflS 


O 咖 I 


S 1 Lfaul 


^llemDCpl^idx.) 

3 i & ilHCM . l 44 x ] 

biFt I i tocX |4 |i 


(leaK, lodjc g 4 | 


3.42 数捶传送指令 


» 犸 » 诔眄的抵令避祗行6 Jg 传边的指令， 璗怍 数押号的1用 性懂徇一条閛 華的桦 送疳令 H 罅完 
戍丹多飢器中贽好几完成的功能- 

wmm 


34列出的 班一砷 i 挺的数 抿抟送錐常巾的 Jft 

wi 檐令 * 板搛 作_定一个值_它吋以是 立即板 ■ 可以存截迕 衝存暴中. 也可以右吐 
赫鼎吖 iim ㈣ 贿-个饺 ff h 它脔以是 f 行 b p 也可以 

# 運指令 的 w 个橡作 * a [不能铘痄 a 什 a 雖位 w * 将 一个值 从一个々桶睢价 I 拷到 s —个 a 储罌位_斤;辟 

条推 ♦ — 第 ■ 条撞 令将诨 值加栽 SfffS 中 ，華 二条将 改寄存 Sffl 写\〖 |的怜 t , 

hfii 这个 


IAK 加了 -tftlllij 


■■> 


術令示例铪出7簿和__类节的 ft 种 nj _ 组含，矜 ffl _ F , 應一个靶嫌_作数 


^二个是目的嫌作数 


Vl S 3 x 4 C ^ D /|^^ 

vl ftslnp, 

v】■ %odi , lecK 'l , %c 

vl £-n, !l&Sf>l 

、『l leak I - 12 £ft«Rtpj 

除： r 它只代送一个宇节，当一个操作数玷神 frs 时，它必细迕恂中断 
■+的 a 个单字许布办达几業中的一个*炎叫地， 

fr S 时 > 它必詉 a Hi 3JZ 中听不的 A 个两 : r 节布存拥元 * 中的 一 个 


EjtfI fj ^ f 

- 3 I fj ^ r 

frrnniiJii^ - - Memory 


U 2 fl 




5 


yTTUnBITS 


… A 




报令传珑两个宇节， It 的一个纖作 数为寄 


ii -nz 
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令 


L:U 




传送字 

传送宇 & 


S, D 


D ^ S 


IPOv J 


ip D 


D 


mow 


imovb 


S，D 


D - S 


D — 符号扩展 d 


传送符号扩展的字节 


S，D 


传送零扩展的字节 


D - 军扩展 （ S ) 


irovztl 


S 


fK 栈 


Rl%esp] — R[%esp]-4 ； 
M[R[%esp]] - S 
D - M [ R [% esp ]]; 

R[%esp! ^ R[%esp]+4 


pushl 


S 


出栈 


D 


pop 丄 


图 3.4 数据传送指令 

movsbl 和 movzbl 指令负责拷贝一个字并设宵 5 的操作数中其余的位。 movsbl 指令的源操 
作数是单 T 节的，它执行符号扩展到32位（也就是，将高24位设置为源字节的最卨位)，然后拷贝 
到双字的 H 的巾。类似地， movzbl 指令的源操作数是学.字节的，在前面加24个0扩展到32位，井 
将结果拷 I 到双 T - 的 H 的中。 


旁注 t 字节传送指令比较 

仔细观察可以发现，三个字节传送指令 roovb 、 numW 和 niovzbl 之间有欏的差别，这里有一 


个示例 


初始假设 %Ot = 8D f %eax = 987654S2 

movb % dh,%al 

movsb 1 % dh , %^ax 
movzbl % dh,%eax 

在这些例子中，都是将寄存器的低位字节设置成的第二个丰节 a movb 指令不改变 
其他三个字节 ■ 根据诔字节的最高位， movsbl 指令将其他三个字节设为全1或全0, mcmbl 指令无 
论如何都是将其他三个字节设为 ir 0, 

M 后两个数据传送操作是用来将数据压入栈中和从栈中弹出数据的。正如我们将看到的，栈在 
处理过程调用中起到至关重要的作用 。 push 〗 和 p 叩1指令都只有一个操作数 —— 用于压入的源数据 
和用丁-弹出的 n 的数据。程序栈存放在存储器中某个区域。如图3,5所小，栈向卜增长，这样一来, 
栈顶元素的地址是所冇栈中元素地址中最低的。（根据惯例，我们的栈是倒过来画的，栈 [ ‘顶”在图 
的底部。）栈指针保存着栈顶元素的地址^将一个双字值压入栈中，旨先要将栈指针减4,然 
后将值写到新的栈项地址.因此，指令 pushl%ebp 的行为等价丁下面这样两条指令： 

^ub] $4 f %eap 

rr.ovl %ebp, (%esp) 

它们之间的〖 X :别是在 n 标代码中 pushl 指令是编码为】个字节的上面那两条指令一共需要6 
个字 t 图中前两栏给出的是当％從9为(^108和％£狀为 0 x 123 时，执行指令 pushl % eax 的效果。 
首先 ％ esp 会减4,得到 0 x 104, 然后会将 0 x 〗23 存放到存储器地址沉104处。 

弹出一个双宁这样的操作将包括从栈顶位置读出数据，然后将栈指针加4。因此 f 指令 popl %eax 


%eax = 9876S48D 


1 


%e 


mi 




fl 手的 机躔城 表示 


11 ? 


等 IH 1 下面这样■两条 


_vl j-lospj ,%0 

iddl SI,%€E-p 






l«dx 


# 




■■ 


I 


m 


綱大 


OkL ⑽ 




Hui^i 


加 : m 


QsclN 


It 


mu 钱味 作谀明 

fttt- frfrttflfffsut. firtis*u#tta 小 it- fitsinffiw 的 ft. 


ji . s 的 tt 二产 说明的 i 在抉 fr 完 _ 后立即 m \^ 存储 in 中读出 

Ok 123 


fifei 23, # 与 a 彎存 《 ftsh 中 + 然肩_布#冉 ％« p 的®构增 fit 为 flKiOS . it 沏中斯示. 

仍然会保钸在 frttSft 位 Ifiia 似中 . ftfll 玛■条 入拽慟 舴 life-JE 论扣佝 ， 的埔 蚍总迭 


m 




因为栈和 W ■■卜代码以及典他形式《的汚呼数*節 进放在 同样的4 K 推 屮. 所以祝序 《1 以用标 HF 的 
存簡啡寻址方&访卩彳拽内任愈位置.例》,儀現拽顶元邐I 双宇,撸令 》 v 14( te 日 p 】_ tedi , ^ 

3.43 数据传送示例 

给 G . S 初 学者！ 針的示:例 

** t«diangc ( i 3.0 提碘了 ^个美于 t ： t 相针块用时 ft 好说 _■ 参# csip 是一个栉甸整教的 

¥是一个螫教 . il 号 


% 


相针_ 


ITlt >L 

表和我 ffl #* 存倚在印所推 4 il + 的 (!■ 并特 t 存* Hi 字允 j 的曷部9：量中_逯个稽 
_的间接 llfl ( poanBercter ¥ fcreiic 5 nek C 揉蚱符*找疔相针的阁接 


* 


Kpr 


z 
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语句 


，xp 二 y; 

正好相反——它将参数 y 的值写到 xp 所指的位置。这也是一种捎针间接引用的形式 （ 所以有揀作符 
n 但是它表明的是一个写採作，因为它是在赋值语句的左边 

下面是一个使用 exchange 的例子： 


int a - 4 


int b = exchange(&a r 3)? 

printf{ M a - %d, b = %dVn 


a, b) 


这段代码会打 印出： 

a = 3 f b = 4 

C 搮作符 &< 称为 K 取址"揀作符）创建一个指针，在本倒中，该指针栺向保存局部交量 a 的 
位置。然后，兩数挪 haiige 掩用3覆簋存储在 a 中的值，但是返 W 4作为 A 数的值.注意如何将指 
軒传递给 exchange ， 它能修改存在某个远处位里的数据》 


- code/aam/exchange. c 

int exchange(int *xp^ int y) 


1 


movl 8( % ebp),%eax Get xp 
movl 12(% ebp) f %edx Get y 

movl (% oax ) P %ecx Get x at 

movl %edx, (%eax) Store y at *xp 

Set x as return value 


2 


int : x = * xp ； 


4 


xp 


4 


5 


^xp - y ； 

return x ; 


movl % ecx,%eax 


6 


- —— code / astn / exchange . c 


(&； C 代码 


Cb ) 汇编代码 


3+6 exchange 函数体的 C 和汇编代码 


朽略 r 栈的建和完成部分 : ■ 

作为一个使用数据传送指令的代码示例，4虑图3,6中所示的数据交换函数，既 frc 代码，也 
有 gcc 产1:的 r 编代码。我们省略了过程入口处的汇编代码，这些代码用来为运行时栈分配空间， 
以及在过程返回前回收栈空间的代码。当我们讨论过程链接时，会讲到这种建立和完成代码的细节。 
除此之外剩下的代码，我们称之为“过枵体 （body)' 

程体卄始执行对，过程参数 xp 和）存储在相对于寄存器 ％ebp 中地址值的偏移8和12 
的地方。指令1和2会将这些参数传送寄存器 ％eax *%edx 。 指令3间接引用并将值存储在 
寄存器％饮\中，宄应于程序值^指令4将 y 存储在邛。指令5将 x 传送到寄存器 ％eax P 根据 
惯例， 所有返回整数或指针值的函数都是通过将结果放在寄存器9^狀中来达到自的的，因此这条 
指令实现了 C 代码中第6行的功能。这个 例十说 明 movl 指令是如何用于从存储器中读值到寄存 

器的（指令1〜3)，如何从寄冇器写到存储器的（指令4)，以及如何从一个寄存器拷贝到另个 
寄存器的〔指令5)。 

关于这段汇编代码有两点值得注意 t 曾先 t 我们看到 C 中所谓的“指针”其实就是地址。间 


+ 的 


從■就是 tt 改 m 针放个奇 frat , 然 g 作问接#随 s 引用中梗用这个帘 4 雅 

ft I is # 的拘扨变累通 fl 保存4寄存》中,而不是 存播骣 中_ «#櫞访 d 比存伸器 访料要 俠_ 


其次 


多, 


$习 

J 5 |itto 息如 T 


void & [gdel lint int *yp, InL "ip] 

的^教 _ 押嗓 ilL 编代码 „ 代码体釦 F 』 


v 1 Efi*hp] H %edi 
a^vl 12 ( lebf)]i , 4 «bx 

vl 1S i i^bp) ^ i 

Vl (ledi I . 

vl (I cb^ l , ^edx 

vl l%esi] * %eeic 
7 m^vl l € iax , Ocbx ] 

& novl 

9 m*vl l^ivXr ( l € di ) 

参 4txp. yp 和 zp 存健在相对亍奇存 S%cfap 中 A 故植的鶄移 8. 〗 2 和 4 的也方 

ii 写出辛蚊千 上&汇 染代岣的 dciodtrl 的 C 代叫 ■ 可以用 .S 4碩蝙泽*岣 M • 焓设休的 £■ t ■ 

作是功 ft 应饋是 


你的 S 诤畀生成的代叫在寄存 赛 的規相■气是冉德 赛别用 的稍序上寸缘会有所本的 

等錢的. 


3.5 算术和逻辑操作 

W 3.7 列出了_塋双字辨作.分为调类*二无拽作 f 角个磯吖1,也―元嫌作 AW 
㈣ * H 述这 ㈣ fl ft 的則与 M 妒卜使腿符兮 完令刪 ■ STfcnl ㈣ ■ 每条谢令都有对应 

( is a > ** i # 宇节嫌 作的指令_ .「揍成 

4字 B 的 JW 怍了.闽 toU iditl ■付应有龙 idw 和_:, 


■ i "™ 


EJ 


a 是对宇的捶 作, 雨換 rm " d 


3.5.1 加教有效地址 


■■ II 蚁 ff 效地址 ( LradEEfoecivt ^ lreH ) 坩令 hit 实阵上荩 imv [ fft 令的变形。它的衔今琅式尨 

个存傭 


狀 ■_« 舰腳#抑，賊 _j :咖相 卿 肺它締， 个 抓糾上视 m 
S 引用、㈣射朴糾触邮 TOAm 闊辟⑽ ㈣（邮 fr ⑴ 
触丄 7 中 mm c _址攤 ㈱ &s 来關这神计 

掏针■兄外I 它还邛 以 fflJitra® 地 jiiiftii 的 it 术择怍■例 卽. 

令 leaL 


这备伟令叩以用来为括由的#训馮，;1用产生 

Mm 

梅设##孖器％?«的值为為+夂注1, B 的癱作數必糊 


%r 


7 [^ d 3 c r iedx r 4), »5 


m 




M 儀 3,3 

tt 设有存 at'J^ns 的 41 为 


呀为 y , 川马下 i . 作碉下 ft 每条 iCi * 代芍柑令存 fit 在寄為 
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结果 


表达式 


leal 6 (%eax) , %edx 


leal [%e.s.x f %acx) P %edK 


leal (%eax r 4},%edx 


leal 7(%eax,%etx 」 8} P %edx 


leal OxA( r %Odx,4) H %edx 


leal 9 (%eax,%ecs,2),%edx 


令 


效 


:H 


加载有效地址 


leal 


S, D [ D ^ dS 


加 1 


D 


D - D + 1 


me . 


decl 


D 


D - D-\ 


収负 


negl 


D 


D-D 


取补 


notl 


D 


D ^ D 


加 


addl 


S，D D - D + S 


!S 


subl 


S> D D — D- S 


乘 


imull 


5, O 


D — D*S 


賊 


xorl 


S, D D - D A S 


或 


orl 


S> D D ^ D\ S 






S, D D - D&S 


t 移 


sail 


k、D 


D 


D«k 


左移〔等同十 sail ) 

» 术谷移 
逻辑右移 


shll 


L D D “ D«k 


sari 


it, D D 


D»k 


i— 


shrl 


D \ D ^ D»k 


3.7 整数算术操作 

加跋右效地址 ( l ^ n 指令通常用来执打简笋的算术操作，而其余的指令是非常标 准的一 7 E 或_.元操作，注意 . gas 中的換作 
数嘅序与上表相反。 

3.5.2 —元和二元操作 

第二类操作是一元操作，只有一个操作数，既作源，也作 R 的。这个操作数 nj 以是- 个寄存器， 
也可以是-个存储器位置.比如说，指令 incl (% esp ) 会使栈项元素加1。这种语法 N 人想起 C 中 
的加1运實符 (++) 和减1运算法 (-). 

第 H 类是二元操作，第二个操作数既是源又是目的。这种语法让人想起 C 中像+= 这样的 赋值运 
算符。不过，要注意，源操作数是第一个，3的操作数是第二个 t 这是不 nj 交换操作特有的。例如, 
指令 S ubl % eax , % edx 使寄#器舳(1只的值 减去鉍 ax 中的值 D 第一个操作数吋以是立即数、寄存 

器或是存储器位置^第二个操作数可以是寄存器或是#储器位置。不过 + 同 movl 指令- 样，两个 
操作数不能同时都是存储器位置， 





祖序的机 SiijLtJr 


wilt 下曲的值存： it * 相定的存袖和寄再 S + J 




WflO 


flxFF 


ClJdOt 




\mm 


Dkl | 


OsclK 


■Ml 


ftifcT * ■伞的被果 fc tft 明将被更麵_寄4 蠤成存 _ 器 ai 


以及得对的值 ■ 




0 


^ J ieos , lle-AX) 

叫知 ] ^rdK.4i ； l«fSi«j> 

imill 
incl 




dec! Ikm 


SUM Ifldac^eifli 


S 3 移怔操作 

W 后一蚤 ft 移位羰作.先给 〖 LlWKMh 粑后 ft 時移位的 ffi , 可以 atrff ■木和 1»右移 

31位的梓恂，移位_叮以是 一个泣 0 U 数，或者放在印字 V 梅 

*»■. 两 者的效 I 柿-■扦，•酺右 

iM 执行 j»Stt (Jit ok 


m.n 


用印■个字朽螭码， 囡为只 纪钤迸行 


存 S 元 Jfftd 中,如， 3 ms , 左移 ft 令有 U 个 ft 字 ■ mJI 
边 n 右馨#令不角,零移垃 (« bir § ft 3 i 


% 331^5 

说设我或 T 由达个 C 4軚錡汇嶋汽崎 


i nt. shl ft _1 frft2jrightij(int 


int nj 


X K < = 


X »= Rj 
CfeC-lLrrj m 


T * 速坡 代码执行实陆的# 住， #杵氣后的 J * 果故4辛存霣％* 
令， 私数1 和 


中. A 赴省略了两条 t**Hs 


m 


分別存敢在存倚 il + 时予奇 # IS 令七冰中地址体樣 s 和 U 的淹翕. 


vl 12 fiecx 

^1 8 £ lebpl , S 


Or ， 

&jjt 

x «夏 2 

JT >> _ _ 


IEA 


X 


4 


W 4 I 右塊的 迓鋒， 填矢釣相令 』 请用算米右科 振作. 
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3.5.4 讨论 

除了右移操作，所冇的指令都不区分有符号和无符号操作数。对列出的所有指令来说，一进制 
补码运算和无符号运算有同样的位级行为。 

图18给出了，个执行算术操作的闲数不例，以及它的汇编代码。和前面样，我彳 fm 略/栈 

的违立和完成部分 D 函数参数^ y 和 z 分别存放在存储器中相对于寄存器 ％ebp 中地址偏移8、12 
和16的地方。 


code/asm/arith. c 


int arith [ int 


x 


int z) 


4 


int tl 
int t2 

int t3 二 t: & OxFFFF ； 

int t4 - t2 * t3 ； 


x-y; 




48 


TT 


Z 




10 


return L4 


11 


code/asnt/arirhx 


fa) C 代码 


movl 12 (%ebp),%eax 
movl 16 (%ebp) , %edx 
^ddl 8(%ebp) f %eax 


Gety 

Getz 

Compute tl - x+y 
leal [%ecx f %edxj 2 ) , %edx Compute z^3 


2 


sail $4 f %edx 
andl $6b535,%eax 

imull %cax,%edx 

movl %edx,%eax 


Compute t2 = z*48 
Compute t3 = tl&0xFFFF 

Compute t4 = t2^t3 
Set t4 as return val 


( b ) 汇编代码 


3+8 算术运算函数体的 C 和汇编代码 


略 / 柊的迂立 和完成 部分。 


指令3实现表达式 X+J ， -个 操作数 y 来自寄存器 ( 由指令1取出） t 曲另一个直接来 fl 

存储器。指令4和5执行计算 z*48, 首先使 leal 指令对伸缩化的变址4址模式的操作数执行讣筇： 

U + = 然 f 将这个值左移4位，以计算2 4 3^=48心 C 编译器常常用加法和移位指令来完成 

符数因 f 的乘法1就像 13.6 节中讨论的那样:^指令6执行 AND 操作 + iftj 指令7执行最后的乘法， 
最指令8将返冋值移到寄存器 ％ eax 。 


在图 3.8 的汇编代码中，寄存器％ ■eax 中的值先后对应于程序值 


tK t3 和 t4 (作为返回值〕 
通常，编译器产 卞的代 码屮，会用一个寄#器存放多个程序值，坯会在寄存器之间传送秤序值。 




12 


习 




在 tt 写的代叫令 

Eg ? 1 i 


HB- 1 


1 c n ； 


i? 


y +•晶 


我们发現下* 的; [ 鎬忾碎什 = 

ttdx , l @ d « 

汝 W 释岢卄我 fll 的 C 代蚪中没有 
这 IHS 今类现的是 Cfl 寿中计 i * 柞 

3,5.5 特殊的 I 术操作 

拍述_足支持产生内个 3 2位 ft 卞的全 M 位換税以及斯数荦法的指令 


EXCLUSIVECft [ 畀 JU 達 H itf# 食有 4 抖的拍令 


7 


.null 




null 




ltilvl 
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操作数乘法。有符弓除法指令 idWl 将寄存 $%edx (髙32位）和9^&\ (低32位）中的64位数作为 
被除数，除数是作为指令的操作数给出的，指令将商存储在寄存器中，将余数存储在寄存器 
% edx 中冰丄指令 卩1 以用来根据寄存器 ％ eax 巾存放的32位的值形成64位被除数，这条指令将 ％eax 
符号扩展到 ％ edx 。 

让我们来肴个例了_，假设有符号数 x 和 y 存储在相对丁 ％ebp 偏移暈为 S 和12的位置 f 我们想 
要将 Vy 和存储到栈中。代码是像 V 面这 样的： 

x at %ebp-^8 3 y nt %ebp+12 

1 movl 8{%ebp),%eax 

2 cltd 

3 idivl 12(%ebp} 

4 pushl %edx 

5 push] %edx 

divi 指令执行无符号除法 D 通常会事先将寄存器 ％edx 设質为0。 


Put x in %eax 
Sign extend into %edx 

Divide by y 

Push x/y 
Push x%y 


3.6 控制 

到目前为 ih, 我们考虑了访问数据和操作数据的方法。稃序执行的另一个很重要的部分就是控 
制被执行操作的顺序 t 对 c 和 r 编代码中的语句，默认的方式是顺序的控制流，按照语句或指令在 
界序中出现的顺序来执行， c 中的某些程序结构，比如条件语句、循蚪语句和分支语句，允许控制 
按照非顺序方式进行，印根据程序数据的值来确定顺序。 

汇编代码提供了实现非顺序控制流的较低 M 次的机制1基本操作是跳转到程序的另一部分，可 
能会视某些测试结果而定。编译器产生的指令序列是依赖丁-这些低妃机制来实现 c 的控制结构。 

在我们的讲述中，会先谈到机器级机制，然后会给出如何用它们来实现 C 的各种控制结构。 

3,6,1条件码 

除了整数寄存器， CPU 还包舍一组单个位的条件码 （condition code ) 寄存器，它们描述了 M 近 
的算术或逻辑操作的属性。对这些寄存器的检测，将有助于执行条件分支指令。 最有用 的条件码是: 

CF. 进位标 志。 最近的操作使最髙位产生了进位，它可用来检 SX 符号操作数的溢出。 

ZF: 零标志^最近的操作得出的结果为0。 

SF： 符号标志。最近的操作得到的结果为负数。 

OF： 溢出标志。最近的操作导致一个二进制补码溢出——正溢出或负溢! L 
比如说，我们用 addl 指令完成等价于 C 表达式 t=a+b 的功能，这甲 :变景 a、b 和 t 都是整型的。 
然后，会根据卜_面的表达式来设置条件码： 


CF: {ursigned t} < (unsigned a) 

zf ； {t. - = n j 

SF ； (t < 0) 

OF: (a 


无符号溢出 


零 


负数 


有符号溢出 


b < 0 ) £ ( t . < 0 1 - 


0 ) 


1在 Intel 的文档里，这条指令称为这是少数 GAS 侑令名与 Inte】 的名 字无关的情况之一。 
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leal 指令不改变任何条件码，因为它是用来进行地 址计算 的。另一方囟，图 3.7 中列出的所有指 
令都会设置条件码。对于逻辑操作，例如 xorh 进位标忐和溢出标忐会设置成0。对 f 移位 操作， 
进位标志将设置 AM 后-个被移出的位，时溢出标志设置为0。 

除了图 3,7 中的潆作， F 面的表给出了两个操作（冇 8、16 和 32位彤 式)，它们只设置条件码 
而不改变仟何莫他寄存器 t 


令 


基于 


描述 


比较？节 
测试字 P 


CKlpb 

testh 


&， Si 

Sl，Si [ Sl&Sn 


s,-h 


比较？ 


s 


S | ■ ^3 


ClTipW 


測试宇 


Si &. S 2 


5 ?p 5\ 




比较双宇 
si 试财 


S 2f S 


cmpl 

test 1 




Si 


cmpb 、 ctnpw * cmpl 指令根据它们的两个操作数之差来设置条件码。在 GAS 格式中，操作数 

的顺序是相反的，使得代码有点难读 . 如果两个揀作数相等，这些指令会将零标志设置为 U 而其 

他的标志可以用朿确定两个操作数之间的大小关系。 

testb > testw 和咖1指令会根据它们的两个操作数的与 （ AND ) 来设置零标志和负数标忐。通 

常两个操作数是一样的（例如 ， tesU % eax , kax 用来检査％咖是负数、零，还是正数），或 

其中的一个操作数是用来指禾哪些位应该被测试的掩码。 


3.6.2 访问条件码 

两种最常用的访问条件码的方法不是肓接读取它们，而是根据条件码的某个组合 f 设 t 一个整 
数寄存器或是执行一条件分支指令。图 3.10 中描述的是各种 set 指令根据条件码的某个组合，将一 
个字节设置为0或者1。目的操作数是八个单字节寄存器元素（图 12) 之一，或是存储一个字节的 
存储器位置。为了得到一个32位结果，我们必须对最高的24位淸零6 

一个 C 判定条件（例如 a < b ) 的典型指令序列如下所小： 


Note: a is in %edx f b is in %eax 
cmpl %eax f %edx 

%al 

m^vzbl % al P %eax 


Compare a：b 

Set low order byte of %eax to 0 or ! 
Set remaining bytes af%eaxto 0 


movzbl 指令用来清零三个高位字节。 

某些底层的机器指令可能有多个名字，我们称之为“同义名 〔 synonym )' 比如说， “ setg ” （表 
设置大 f ”）和 “ setnle ” （表示“设置不小于 等于， 指的就是同一条机器指令。编译器和反汇 
编器会随意决定使用哪个名字。 

虽然所有的算术操作都会设置条件码 t 但是各个 set 命令的描述都适闲于这样一神情况：执行 
比较指令，根据计算1= 3 -匕设置条件码 。 例如，就 sete 来说.即“当相等时设置 （ Setwh ene qual)’ j 
指令 D 当 a = b 时， 会得到 t = 0, 因此零标志置位就表示相等> 


不 
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设1条件 


令 


同义名 


相等/? 


D 


Z>—ZF 


sete 


sets 


D 


/>- ZF 


setnz 


aetne 


负敗 


D^SF 


D 


sets 


t-m __ 

大丁（有符 ？>>^ — 
人千答于（々符号 >=) 
付(有符咕<) 

小于芎于（有符号 <=) 

超过（尤符？>> 

超过或相等 (无符号 >=) 
低于 (无符弓<) 

饫丁•或相方（无符号 <=) 


D 


D 


setris 


W 丨 0F)& ZF 

D—':SF A OF} 

卩 moF 

D^iSF^OT] |z ： 

_ ■ 

一〜 «■> 

D— CF £ ZF 

D—'CF 

D —CF 

D—CF CZY 


D 


setnle 

secr.l 

setnge 

setng 

setnbe 

ser.nb 


ssr.g 

setyc 

setl 

eet le 


D 


D 


D 


D 


seta 


D 


setae 

sef.b 

secbe 


D 


setnae 


D 


setna 


图 3.10 sett 指令 

每条指令根据条件码的某个绢合，将-■个 f - 节设 t 为 () 或者 h 有些指令 fl “同 X 名' 也就是•同•条机器指令有别的名7-。 

类似地，考虑用 sed , 即 “3小于时设置 （Set when less )" 指令，测试一个有符号比较。3 
和 b 是用一进制补码表小时，对于 a < b _ 计算两者之差时，我们会有 a - b <0。 3没冇溢出发生时， 
符号标山置位就表明 a < b 。 当因为 a - b 是一个很大的正数 t 出现正溢出时，我们会得到 t <0。 3 
因为 a - b 是个根小的负数，出现负溢出时，我们会得到 t >0。 无论是这两种情况中的哪…种， 
符号标志都表；的是寅正的差的反，因此，溢出和符号位的异或测试的就是 a < b 。 其他的冇符号比 
较测试 是苺于 SF A OF 和 ZF 的其他组合。 

对于无符号比较的测试，当无符号参数 a 和 b 的整数差是负数时，也就是当 （ unsigned ) a < 
( unsigned } b 时， cmpl 指令会设置进位标志。因此，这些测试使用的是进位标志和零标志的组合。 

练习 H 3.7 

在下面的 C 代码中 > 我们用 


a 


替换了一些比较运算符，并且省略了强制类型转换中的数 




据类昱 


char ct:est(int a f int b, int c ； 


char ^1 
char z2 

char l3 

char t4 

char L5 
char t6 

return tl + t2 + 13 


b; 


a 


b 


5 


c 


a; 


a 


c; 


7 


b ； 


c 


0; 


a 


9 


t4 


t5 + tG ； 


+ 


十 


10 


对原始的 C 代码， GCC 产生了下面这样的汇编 代码: 


mcvi 3 (%ebp) , %ecx 
movl 12(%ebp),%esi 
cmpl %esi f %ecx 
sell %al 

cmpl %ecx,%esi 


Get a 

Getb 

Compare a:b 
Compute il 
Compare h:a 
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Compute t2 
Compare c:n 
Compute t3 


setb -1(%ebp) 
cinpw %cx^ 16 ( %ebp) 
setce -2(%ebp) 
movb %cl,%dl 
cmpb 16 (% ebp ) / %dl 

setne %bl 

cmpl %esi ； ^6(^ebp} 
setg -3(%ebp) 
test1 %ecxj%ecx 
setc %dJ 

addb -1 (%ebp) f %al 
addb -2(%ebp),%al 
addb %bl,%al 
addb -3t%ebp),%al 
sddb %dl f %al 
movfcbl %al^%eax 


Compare a:c 
Compute t4 
Compare c;b 
Compute t5 

Test a 
Compute t6 
Add \2 to tl 
Add t3 to tl 
Add t4 to tl 
Add i5 to tl 
Add t6 to tl 

Convert sum from char to int 


10 


11 


12 


13 


14 


15 


16 


17 


18 


19 


20 


21 


根据这些汇编代码，填上 C 代码中缺失的都分（比较运算符号和强制类型转换符号）, 


3.6.3 眺转指令和它们的编码 

在正常执行的情况下，指令按照它们出现的顺序一条一条地执行 s 跳转 (jump ) 指令会导致执 
行切换到程序中一个全新的位置（参见图3.11)。这些跳转的 A 的地通常用一个标号 （ hbel ) 指明。 

考虑 F 面这样的汇编代码 序列： 


Set %eox to 0 
Goto XI 

Null pointer dereference 


xorl %e^x F %eax 

jmp . LI 

aovl (%eax),%edx 


LI : 


popl %edx 




大 f 邮 g ->) 

Xf 或等于 （ft 符号 >-) 
小于 （■* ■符今 <) 

小 7 • 或等子（有符号 <=) 


(SF A Om SF 

V (3F A OF) 

SF^OF 

(SF^OF)|ZF 


Label 


jnle 


J 3 


Lab^J 


jnl 


]ge 


jl 


Label 


兩 e 


Label 


jng 


超过 a 符号 >) 

超过 或相等〔尤符号 >w 
低十 (无符号 <) 

低于或相等（无符号 <=) 


LaM 


CFt ZF 


ja 

■ 


jnbe 


LaM 


jnb 


CF 


Dae 


]t 


Label 


CF 


jnae 


]te 


Label 


jna 


CFt ZF 


3.11 jump 指令 

与跳转条件满足时.这些指令会眺转到-•条带标号的日的地。有些指令有“同义名' mm •条机器指令的則名 t 
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指令 jmp+iJ 会导致程序跳过 movl 指令，从 popl 指令幵始继续执行。在产生 H 标代码文件时， 
汇编器会确定所有带标号指令的地址，并使跳转目标 （E) 的指令的地址）编码为跳转指令的一邹分, 

jmp 指令是无条件跳转。它可以是直接跳转，即跳转口标是作为指令的一部分编码的，也 nj 以 
足间接跳转，即跳转 H 标是从寄存器或存储器位置中读出的。汇编语 g 中，自.接眺转是给出一个标 
号作为跳转 H 标的，例如，上面代码中的标号“丄匕间接跳转的写法是后面跟一个操作数指 
■小符， 语法与 tnovl 指令使用的一样。看看这个例予，指令 


jmp *%eax 


用寄存器 ％ eax 中的值作为跳转 0 标，而指令 


jmp *(%eax) 


以％ 6 狀中的值作为读地址，从冇储器中读出跳转 h 标。 

其他的跳转指令是根据条件码的某个组合，或者跳转，或者继续执行代码序列中 k 条指令。 
请注意这些指令的名宁和跳转条件与 set 指令是相匹配的。同 set 指令样，些底层的机器指令有 
多个名字。条件跳转只能是直接跳转。 

虽然我们不关心 Fj 标代码格式的细节，但是理解跳转指令的0标是如何编码的对第7章屮研究 
链接非常 重要。 此外，在解释反汇编器输出时，它也是很有帮 助的， 在汇编代码中，跳转 H 标是用 
符号标号书写的。汇编器，以及后来的链接器，会产生跳转 y 标的适当编码3跳转指令有儿种 + R] 
的编码，但是最 常用的 -- 些是 PC 相关的 （PC-rdative, PC ^ Program Counter)o 也就是，它们会将 
口标指令的地址与紧跟作跳转指令后面那条指令的地址之间的差作为编码。这些地址偏移量可以编 
码为一、二或四个字竹 3 第—种编码方袪是给出“绝对”地址，用四个字节育接指定 H 标。汇编器 
和链接器会选择适当的跳转3的编码， 

作为一个与 PC 相关的4址的例了，卜面这个汇编代码的片断是编译 silly.c 文件所产屮的。它 
包含两个 跳转： 第1行的 jk 指令前向跳转到更卨的地址，而第8行的 jg 指令后向跳转到较低的地址。 


jle .L4 


If <=， goto dest2 

Aligns next instruction to multiple of 8 


p2align 4,,7 


destl; 


_ L5 : 

movl %eax 

sari $1,%eax 
subl %eax,%edx 
test! %edx；%edx 
jg .L5 

丄 4: 

ir.ovl %edx, %eax 


4 


//>, goto destl 


dest2 


10 


注意，第 2 行是-条针对汇编器的命令 （ directive ), 它会使后面指令的地址从16的倍数处开 

始，而最多浪费 7 个字节。这条命令是为 r 使处埋器能更优化地使用指令高速缓存存储器 < instruction 
cache memory ) □ 

t 编器产生的 “.0” 格式的反汇编版本是这样的： 

1 8 ： 7e 11 

2 a: 3d b6 00 00 00 00 


jle lb <silly+0xlb> 
lea 0x0(%esi) f %esi 


Target = de$t2 
Added nops 
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10： d 0 
12 ： cl f8 01 
^5: 29 c2 

17 : 85 d2 

19: 7f C5 
lb; 89 dO 


destj 


mov %edx^%edx 

$0x1 r % e ax 

aub %eax f %edx 
test %edx 

jg 10 <silly+0xl0> 
mov %ed^ P %eax 


sar 


6 


Target - destl 


destl 


第 2 行的 lea 0x0 (%esi ； f %esi 指令没有什么实际的效果。它是作为 6 个字 t 的空指令 ( nop ), 
使得卜一条指令（第3行）的起始地址是16的倍数。 

石边反 I 编器产生的注释中，指令1的跳转0标明确指明为 Oxlb , 指令7的是0 x 10。不过，观 
察指令的字节编码 T 会看到眺转指令1的口标编码（在第一.个字节中）为 0 x 11 (彳 进制17)。把它 
加上 Oxa ( 1进制10)，也就是 F —条指令的地址，就得到跳转口标地址 Oxlb (十进制27)，也就是 
指令8的地址。 

类似地，跳转指令7的 S 标用单字二进制补码表示编码为 0 xf 5 (十进制 -11 h 将这个数加 
上 Oxib (十进制27)，即指令8的地址，我们得到 tolO ( 十进制16)，即指令3的地址 。 

正如这些例 f 说明的那样，当执行与 PC 相关的寻址时，程序计数器的值是跳转指令后面的那 
条指令的地址，而不是跳转指令本身的地址。这种惯例对以追述到早期的实现，当时 f 处理器会将 
更新程序计数器作为执行一条指令的第一也 6 

下谢是链接后的程序反汇编的 版本： 


1 8C'483c8; 7e 11 

2 8C483cd ： 8d b6 00 00 DO 00 

3 8C483d0r 89 dO 

4 8C48332 ： cl f8 01 

5 8C483d5 ： 29 c2 

6 8C4B3d7: 85 d2 

7 80483^9: 7f f5 

8 80483db; 89 dO 


jle 

lea 

mov 


30483db <silly-h0xlb> 
0x0 \ %esi),%esi 
本 edx r %eax 

$0x1 f %eax 
% edx,iedx 

%edx 

S0483d0 <silly+0xl0> 
%edx,%eax 


sar 

sub 

test 


mov 


这些指令被重定位到不同的地址，但是第1行和第7行中跳转 g 标的编码并没有变。通过使用 

4 PC 相关的跳转 R 标编码，指令编码很简洁（只需要两个字冇），而且目标代码可以不做改变就移 
到存储器中不同的位置。 


练 3] S 3.8 

在下面这些反汇编二进制代码节选中，有些信息被X代替了。回答下列关于这些指令的问题 

A. 下面 jbe 指令的目标是什么？ 

8048dlc ： 76 da 

8048dle ： eb 24 

B. mov 指令的地址是多少？ 


jte 


xxxxxxx 

8048d44 


jnip 


XXZXXXX : eb 54 
XXXXXXX : c7 15 f8 10 00 


8048d44 

JOxlO.OxfffffffStfeebp) 

C. 在下面的代码中，跳转目标的编码是 PC 相关的，且是一个4字节的二进制补码数。字节是 




mov 
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按照从最低位到最髙位的顺序列出的，反映出 IA 32 的小端法字节顺序.跳转0标的地址是什么? 

304890^: e9 cb 00 00 00 jmp XXXXXXX 
8048907 ： 90 

D . 请解释右边的注释与左边的字节代码之间的关系。这两行都是 jmp 指令编码的一部分 u 

0x804a2e0 


nop 


80483f0: fE 乃 e0 a2 04 
80483f5: 03 


]mp 


为了实现 C 的控制结构，编译器必须使用剛才我们看到的各种类型的跳转指令.我们会浏見一 
下最常见的结构，从简单的条件分支开始，然后考虑循环和开关语句。 


3.6.4 翻译条件分支 

C 中的条件语句是用有条件和无条忤跳转结合起来实现的。例妇，图 3.12 给出了一个计算趵数之 
差绝对值的闲数的 C 代码 U )。（ C ) 是 GCC 产生的汇编代码，我们创建了对应的 C 版本，称为 gotodiff 
Cb ), 它是更加紧密地遵循汇编代码的控制流。 （ b ) 使用了 C 中的 goto 语句，这个语句类似于汇编代 
码中的尤条件眺转。第 6 行的 goto less 语句会导致一个跳转，转移到第 9 行的标号^处，略过 f 
第 7 行上的语句，请注意 f 通常认 力使用 goto 语句是 - 种不好的编程风格，因为它会使代码难以阅读 
和调试。在我们的叙述中使用 goto 语句， 是为了构造描述汇编代码稈序控制流的 C 程序。我们称这样 
的 C 程宇为 “goto 代码' 

汇编代码实现首先比较两个操作数（第3行)，设置条件码，如杲比较的结果表明 M 、 千 y , 那 
么它就会跳转到计 f y - x 的代码块（第9行)，否则就继续执行计算 x - y 的代码（第5行和第6行)。 

在这例种情况中，计算结果都冇放在寄存器中，到第10打结束，在此，它会执行栈完成代码 
(没有敁冶出来）。 

C 中的 if ^ ehe 语句的通用形式是这样 的： 


if {test-expr) 
then-statement 

else 

else-statement 


这 Mtest-upr 是一个整数表达式，它的取值为 0 (解释为“假。或者为非 0 (解释为“真”) 


两个分支语切中 （ then - statement 和 else - statement ) 只会执行一个 


对于这种通用形式，汇编实现通常会使用下面这种形式，这里，我们用 C 语法来描述控制流： 


t 


tesi-expr: 


二 f (t) 


goto true 
etse-Aiatemeni 

goto dene； 


true : 


then-iftcitement 


done i 


也就是，■编器为 then - statement 和 else - statement 产生各自的代码块，并插入条件和尤条件分 
支，以保证能执行正确的代码块。 
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code/asm/abs.c 


int cotodiff(int 


int y] 


x 


inL ival; 


4 


y) 


， — code/asm/ahs. c 

int y] 


goto less ； 


int absdi£f(int 


x 


rval 


x 


Y 


2 


goto done 


if (x < y ) 

return y 


3 


less 


10 


rval = y - x ; 


el^e 


11 


done : 


return x 


12 


return rval ； 


y 


13 ) 


code/asm/ahs, c 


code/astn/abs + c 


U) 原姶的 C 代码 


(b) 5 之等价的 goto 版本 


movl 8(%ebp),%edx 

movl 12(%ebp),%eax 
CTnpl %eax ； %edx 
jl .L3 

sub 丄 %eax f %edx 

movl %edx f ?eax 


Getx 

Gel v 

r 

Compare x:y 
lf<, goto less 

Compute x-y 

Set as return value 

Goto done 


L5 


jmp 


less: 


3 .L3 : 


Compute y-i as return value 

. done: Begin completion code 

u) 产生的 Jt_ 编代码 


subl %edx,%eax 


1 U 


L ) 


3,12 条件语句的编译 

CM 程 ahsdiff (a) 包含一个 〖fdse 语句 > 产生的汇编代码为 （c)， 而 C 过程 gotodiff (b) 模拟了 汇编吒码的控 制流。 注意: 
^编代码中栈的建 C 和完成部分被省略 s 


维习题3,9 

当给出下列 C 代码时 


code/asm/simple-if, c 


void cond(int 


int *p) 


a 


if [p a > 01 


4 


P 


a ； 


code/asm/simple-if, c 


GCC 会产生下面的汇编代码 
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movl S (%ebp ； , %ed>c 
movl T 2 (%ebp)^ %eax 

tebtl %eax H %eax 
j e . L3 

testl %edx,%edx 

j lo . Tj3 

addl %edx ； (%eax) 


8 h 13 : 

A. 按照图 3.12(b) 中所示的风格，用 C 写一个 goto 版本，执行同样的 计算， 并模拟汇编代码 

的控制流。像我们在示例中那样给汇編代码加上注解可能会有部助。 

B, 请说明为什么 C 代码中 R 有一个 if i 吾句，而汇编代码包含两个条件分支。 


3.6.5 循环 

C 提供了好几种循环结构， W while, for 和 do-while。 汇编中没冇相应的指令#在，作为替代, 
将条件测试和跳转组合起来实现循坏的效果。有趣的是，大多数汇编器根据 个 循环的 do-while 形 
式来产 M 蚌代 码，即使在实际程序中，这种形式用的相对较少 & 其他的循环会首先转换成 do-while 
形式，然后编评成机器代码。我们会循序漸进地研究循环的翻讦，从 do-while 幵始，然后再研究更 
复杂的实现。 

do - while 循坏 

do^while 语句的通用形式是这 样的： 


do 


body-stutement 
while (text~expr)\ 

裥环的效果就是重复执行 hody-siaternem, 对 test-expr 求值，如果求值的结果为非零，就继续循 
环。 注意， body-statement 至少执行一次 c 

通常， do-while 的实现有卜面这祥的通用形式： 

loop： 
body- 

t = test-expr; 

if (t) 

goto ]oop ； 

作为个尔例，圈 3+13 给山了一个用 do-while 循环讣算 Fibonacci 序列中第 n 项的函数的免现 
Fibonacci 序列是这样递 !H 定义的： 


statement 


厂1 


Fi 


F 




n > 3 


比如说，该序列的前10个元素是1、1 

现，序列是从 f o = 0 和6=1开始，而不是从6和5幵始的。 


3、5, 8、13、21、34和55 D 用 do-while 循环来劣 
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code/asm/ftb,c 


i nt fib_dw[int n) 


int i ^ 0; 
int val = 
int nval : 


6 


do ( 


ir.t t - val 

vsl = nval; 

nval = t ； 


nval ； 


十 


10 


11 


12 


} while (i 


13 


14 


return val ； 


15 ) 


code/asm/fi^c 


(a) C 代码 


寄存器用法 


loop 


L 6： 


寄存器 


变量 初值 


Compute t = mi + nval 
copy nval to val 
Copy t to nval 
Increment i 
Compare i;n 
If less, goto hop 

Sei val as return value 


leal (%edx,%ebx 丨，％ 

movl %edx ,%ebx 
movl %eax,%edx 
incl %ecx 
cmpl %esi,%ecx 


eax 




0 


4 


%esi 


% G^iX 


val 


0 


%edx 


nval 




movl %ebx,%eax 


( b ) 对向的圯编语言代码 

图3」 3 Fibonacci 程序 do - while 版本的 C 和汇编代码 


只有_环内的代妈被茲示 


图中还显示了实现这个循环的汇编代码，以及-张列出寄存器和程序值之间对应关系的表。在 
这个例了中， body-statement 是第8〜11行，对 t、va】 和 nval 陚值，并将 i 加1。这些功能是由汇编 

代码的第2〜5行实现的。表迖式 i 就是 test-expr, 第6行和第7行的跳转指令的测试条件实现 

了这个表达式。一旦退出循环，就会将 val 拷进寄存器 ％eax T 作为返回值（第8行)。 

创建-个像图3」3 (b) 中那样的寄存器使用表，对 f 分析汇编语 吉枵序 是很冇帮助的.特别 
是出现循坏时。 


练习题 3.10 

对于 C 代码 


int dw_loop(int x, int y, int n] 
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do { 


x a 


V 




n -- ； 

} while ([n > 0) & (y 
return x ； 


n)); / * Note 


of bitwise Y V 


< 


use 


GCC 产生了下面这样的汇编代码: 


Ini tially x ； y / and 
movl 8(%ebp),%esi 

tno^l 12 (%cbp) , %ebx 

movl 16(%ebp),%ecx 

,p2al_gn 4 P // 


dre at offsets 8, 12 f and 16 from %eho 


n 


Inserted to optimize cache performance 


■ L6 ; 

iniLill %ccx f %ebx 
add! %ec^, 
decl %ecx 
test 1 %ecx ,%ecx 
setg feal 

cmpl iecx, %ebx 
aet1 fedl 

andl iedx,%eax 
tcstb $1 f %al 
jne - L6 


10 






：4 


：5 


A . 创建一个寄存器使 用表. 类似于 ® 3,13 ( b ) 中所示的那个 
B ■指出 C 代码中的 test-expr 和 body - statement ， 以及汇编代码中相应的行。 

C . 对汇编代码添加一些注释，描述程序的操作，类似于图113 ( b ) 中所示的那样。 

while 循坏 

while 沿句的通用形式是这样的： 

while (test-expr) 

body，statemeui 

它与 do-while 的小同之处在 T 对 te ^ t-expr 求值，在第一次执行 body-statement 之前 t 循坏就 nj 
能中: hL 直接翻译成使用 goto 语句的形式就是 

1 OOP : 


t 


= test-cxpr; 

i£ ([ t) 


goto done ； 
body-statement 

goto loop ； 


done 


这种翻译要求内循环，也就是执行次数最多的代码部分，里有两条控制语句 D 相反，大多数 C 
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编译器将这段代码转换成 dowhile 循环，用一个条件分支朿在需要时省略循环体的第一次执行 


if {Itest-expr) 

goto done ； 


do 


body 

while (test-expr) 


statement 


done 


然后，这段代码可以转换成带 gmc 语句的 代码: 


= test-expr : 


goto done 


oop : 

body-statement 


test-expr; 


if (t) 


gcto loop; 


done 


作为一个例 f， 图 3+14 给出了一个用 while 循环来实现 Fibonacci 序列闲数的实现⑷。注意， 
这次我们的递 iM 从元素尸办山和尸办仰〗)开始 □ 旁边的 C 函数 fULwjoto (b) 表明了这段代码是如 
何翻译成汇编的，而 （c) 中的汇编代码非常接近于 fib_w_^ 0 to 中的 C 代码。编译器进行了几个非 
常有趣的优化，町以在 goto 代码 （b) 中看到。首先，编译器不是使用变量! 作为循 环变量并且在 
每次重复时拿它与^做比较，而是引入了一个新的称为 “timi” 的循环变置，与原来的代码相比， 
它的值等丁，《 这使得编译器只用二个寄存器作为循环变暈，而不用四个。其次，它将最原始 

的测试条件 (i<n) 优化成了 Cval</i), 因为〖和 val 的初始值都是1。这样一来，编译器就能完全 

消除变景 f 编译器常常利用变量的初始值来优化初始的测试，不过这使得解读汇编代码有点麻 
烦。第:七为/循环的连续执行，要保证这样编译器就能假设 nmi 是非负的了。因此，它就 
能将 nmiUO 而不是 nmi >=0 作为循环条件宋测 试了。 这样就在汇编代码中省略了 ■条指令。 

练习题 3.11 

对于下面的 C 代码： 


int loop_while(int 


int b} 


a 


r 


int result 二 a ； 

vjhile (i < 2S6) { 

result 


b 


b ? 


return result ； 


ID 


m 


gcc 产生这样的忙编 代码: 


Initially a and b are at offsets 8 and 12 from %ebp 
rrovl 8 (%ebp) H %eax 
movl 12i%ebp) f %ebx 
xorl %ecx P %ecx 
irovl %eax, %edx 
.p2align 4,,7 


2 




5 


■ Jj 5 : 


addl %edx 

subl %ebx,%eax 

addl %ebx,%ecx 
cinpl $255, %ecx 

jle 丄 5 

A. 创建一个循环体内的寄存器使用表，类似于图 3」4(c) 中所示的那一个。 

B. 指出 C 代码中的 test，expr 和 bodj-statemenU 以及汇编代码中相应的行， C 编译器对初始测 
试进行了什么优化？ 

C. 对汇编代码忝加一些注释，描迷程序的操作，类似于图 3.14(c) 中所示的那样。 

D. (用 C 语言）写一个该函数的 goto 版本，它的结构类似于汇编代码的结构，就像图 3.14(b) 
中所做的那样 D 


7 


10 


11 


codefam/fib x 


1 int f ib_w_goto (int: n) 


2 


int val = 1 
Int nval = 
int Timi, t ; 


• f odefasm/fib x 


int fib_w(int n) 




if [vdl n) 

goto done 

n-1 ； 


int i 

int val 
int nval 二 1; 




1; 




rmi 


ID 


11 


loop ： 


while (i < n) { 

int t = val+nval ; 

val - nval ； 

nval 二 t ； 


12 


t = val+nval 

val = nval; 

nval = t; 


13 


14 


15 


nmi --； 
if (nmi) 


10 


16 


17 


goto loop 


12 


18 


13 


19 done : 


14 


return val 


20 


return va: 


15 } 


21 } 


:ode/asn\Jfib.c 


code/asmJfih. c 


Ca) C 代码 


(b) 与之等价的 goto 版 + 
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movl 8 (%ebp) , %eax 
movl $1 f %ebx 
movl $1^%ecx 

cmpl %ebx 

jge 

leal -1(%eax),%edx 
L 10: 


Get n 

Set vai to 1 
Sel: nval to 1 
Compare val : n 
If >= goto doue 
nmi - n-1 

loop; 

leal (%ecx, %ebx) f %eax Compute t 二 nvali-v^J 

Set v 沒 」 to nval 
Set nval to t 

Decrement nmi 
if ! = 0, goto loop 
donet s 


4 


■ L 9 


寄存器用法 


存器 


变置 初值 


movl %ecx^%ebx 

movl %eax,%ecx 
decl ^edx 

.L10 


10 


%edx 


nmi 


11 


%ebx 


val 


12 


jnz 


%ecx 


13 - L 9 


( c ) 对应的 t 编语言代 R 


图3」 4 Fibonacci 的 while 版本的 C 和[编代码 

编 if 器进•些优化，包括用••-个我们称为 mni 的变 t 代替变 ti 的值。 


for 循坏 

for 循环的通用形式是这样的 


for ( inii-expr; test-expr; updote-expr) 
body 


-statement 


c 语 S 标准说明，这样一个循环的行为与 F 面这段使用 white 循环的代码的行为一样: 


init-expr; 

while {tesi^expr) { 

body-statement 
update‘expr; 


也就是 f 程序首先会对初始表迖式 init-Mpr 求值。然后进入循环，它会先对测试条件 test-expr 
求值+如果测试结果为“假"就会退出 | 然后执行循环体 body-statement, 最后对更新表运式 update-exp r 


求值。 


这段代码编译后的形式是基于前面讲过的从 while 到 do-while 的转换的，首先给出 do-while 形 


式: 


init-expr; 

if [ftest-expr) 

goto done; 
do { 

body-slatefnent 

update-expr; 

} while ( mt^expr )； 

done : 


m 


然后，将它转换成 goto 代码 


ma - expr ; 


t 


test-expr; 


goto dene 


loop ： 
body - 
update-expr; 

tesi-expr; 


statement 


t 


if it) 


goto lcop ； 


done 


作为-个示例 . 卜面这段代码给出 f ■个使用 ftK 循环的 Fibonacci 函数的实现: 


--- code/dsm/fibx 


int f ib_f (: int n) 


■ 

i ; 


int 


int val 

int nval 


for (i : 1; i < n ； i+ 十 ） { 

=val+nval; 

rival ； 


3 


int t 
veil = 

rival 


10 




12 


13 


return val 


14 } 


code/asnt/fib.c 


将这段代码转换成 while 循环形式得到的代码与图 3J4 中给出的凼数 fib.w 的代码一样。实际 
t GCC 对两个函数产叱的汇编代码 就是一 样的。 


练习题 3.12 

考虑 7 面的汇编 代码: 


Initially x f and n are offsets 8, 】 2, and 16from %ebp 
movl 8(%ebp),%ebx 
movl 16(%ebp) r %edx 
xorl %eax,%eax 
decl %ed^ 

」 t i L4 

mcvl %ebx,%ecx 
irr-ull 12 f %ebp) , iecx 
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h p2align 4 w 7 


Inserted to optimize cache performance 


L6 ； 


10 


addl %eax 

subl %ebx,%edx 

. L6 


11 


13 .L4 


前面的代码是编译下面形式的 c 代码得到的 


1 


int loop (int x ； int y, int n) 


int resalt 

int i ； 

for (i = _ 
result - 


0 ; 




return result; 


你的任务就是填写 c 代码中缺失的部分，使燼程序等价于生成的汇编代码. SJ 忆一下，函教的 

结果是放在寄存器 ％ eax 中返回的，为了解决这个问題，你可能需要对寄存器的使用进行一点猜测, 
然后看看这些猜浏是否合理 . 

A , 程序值 result 和 i 应该放在哪些寄存器中？ 

的初始值是多少？ 

C . i 的测试条件是什么？ 

D . 是如何更新 i 的？ 

E . 描述如何在循环体内增加 result 的 C 表达式，不会在一次循环到下一次循环之间改变其值， 
编译器发现了这个情况，将它的计算移到了循环之前。这个表达式是什么， 

F . 填写出 C 代码缺失的部分^ 

3.6.6 switch 语句 

switch (开关）语句提供了根据一个整数索引值进行多重分支 （multiway branching ) 的能力。 

在处理具有多种可能结果的测试时，这种语句特别有用 3 它们不仅提高了 C 代码的可读性，而且通 
过使用_种称为跳转表 (jump table ) 的数据结构使得实现更加高效。眺转表是一个数组，表项 i 是 

一个代码段的地址，这个代码段实现的是当开关索引值 等于； 时程序应该采取的动作。程序代码用 
开关索引值来执行一个跳转表内的数组引用，确定跳转指令的自标。沖使用一组很长的 f else 语句 
相比，使用跳转表的优点是执行开关语句的时间与开关情况 ( switch cases ) 的数量无关 D GCC 根据 
开关情况的数量和开关情况值的稀少程度 Cspaisity ) 来翻译开关语句，当开关情况数量比较多（例 
如，四个或更多)，并且值的范围跨度比较小时，就会使用珧转表， 

图 3.15( a ) 给出了一个 C switch 语句的示例。这个例子有些非常有意思的特征，包括情况标 
号 （case labels ) 晃不连续的（对于情况10〖和105是没有标号的），有些情况有多个标号〔情况 

104和 106), 而有些情况则会落入其他情况（情况 102), 因为对应该情况的代码段没有以 break 
语句结尾。 
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code/asm/swUchx 


1 /* Next line is not legal C + / 

2 code *jt[7] = { 

3 loc_A, loc_def, loc_B, loc_C 

4 loc_D J Ioc_def P loc_D 


int switch_eg_impl ( mt 


unsigned 
int result 


100 ; 




ode/a&m/switcKc 


10 


x ; 


int swi-ch_eg(int x] 


11 


if 


!xi > 6) 

goto loc_def ； 


12 


int result 


13 


14 


Next goto is not legal C + / 

goto jt[xi]; 


switch ( x )( 


15 


16 


case 100 : 

result 

break; 


17 


18 loc^A ： /* Case 100*/ 

result 13; 
goto done; 


13; 


19 


10 


20 


U 


102： 

result += 10; 

/* Fall through */ 


21 


case 


22 loc_B : /* Case 102 

result += 10; 

/* Fall through */ 


12 


1J 


23 


14 


24 


case 103 


2b 


■ 

■ 


26 loe-C: /* Case 103 + / 

result += 11; 
goto done ； 


16 


result 


21 ; 


break; 


17 


27 


28 


case 104 : 

106; 
result 
break : 


29 


20 


30 loc^D ： "Cases 104 ? 106*/ 

result *= result; 
goto done ； 


case 


result; 


31 




?2 


32 


23 


33 


24 


default : 


34 loc^def i /* Default case V 

result - 0 ； 


25 


resul' 


D ; 


35 


26 


36 


37 done: 


8 


return result; 


38 


return result ； 


29 } 


39 ) 


code/osTn/switch. c 


code/asm/switch- c 


( a ) switch 语 


(b) 到扩 1C 的翻译 


3.15 swiich 语句示例以及到扩展 C 的翻译 

到扩 1C (ext 加 dedC) 的 翻译给 ft! / 跳转及 jt 的结构，以及是如何访问它的。实际 h.c 中是 小允〖 午这样的 犮和访问的。 

3,16是编译 switch.eg 时产生的汇编代码。这段代码的行为用 C 的扩展形式来描述就是阐 3.15 
( b ) 中的过程 switcMgJmpK 我们说 ‘‘扩 展的”是因为 C 本身并不提供支持这种跳转表所 需的结 




L ； 
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构，因此我们的代码并不是合法的 C 。 数组包含7个表项，每个都是一个代码块的地址。为此， 
我们扩展 / C ， 增加了数据类型 code 。 


Set up the jump (able access 
lea_ -100(%edx) P %eax 
cmpl $6,%eax 

ja . L9 


Compute xi -x-100 

Compare xi:6 
if > r goto loc_def 
Goto jt[xi] 


L %eax,4) 


4 


]mp 


Case 100 


loc_Ai 

Compute 3^x 
Compute 4 *3^ 

Goto donE 


L 4: 


leal (%edx,%edx P 2),%eax 
leal (%edx,%eax,4) ; %edx 
jmp .L3 


Case 102 


be 


9 , L5 : 

10 addl $10,%edx 


result +- /0 7 Fall through 


Case 103 


ocjC: 

result += // 

Goto done 


11 ,L6: 

12 addl $11, %f?dx 

13 jmp ,L3 


Cases 104, 106 


tocj )： 

result *= result 
Goto done 


14 -L8: 


imull %edx f %edx 

jmp 


15 


16 


* L 3 


Default case 


locjiefi 
result = 0 


17 .L9: 


18 


xorl %edx F %edx 


Return result 


done 


19 


20 


movl %edx, %eax 


Set result as return value 


3.15 中 switch 语句示例的汇编代码 

第1 〜 4行建立起了跳转表的入为了保证当 x 的值小 f 100或人于106时会执行 default 开 
关情况指定的计算，代码生成了一个等于 x -100 的无符号值对 f 介 f 】00 〜 106之间的 x 的值， 
xi 的值在0〜6之间，因为 x-〗00 的负值会绕回成非常大的无符号数。因此，当 xi 大于6时，代码 
fflja (无符号大于）指令来跳转到默认开关情况的代码用#来指向跳转表，代码会执行■个跳转， 
转移到表中表项 xi 处的地址，注意，这种形式的 goto 不是合法的 C 语句，指令4实现的是到跳转 
表+某个表项的转移。因为是间接跳转， H 标是从存储器中读出的。读的有效地址是由标号丄 10 指 


3.16 




L-1 
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定的基地址加 h 变量 xi (放在寄存器 ％eax 中）的伸缩值（伸缩因子值为4,因为跳转表的每个表项 
都是4个字节）确定的 D 

在? L 编代码屮，跳转表是 ft! 下_面这样的声明表不的，我们添加了些注释： 


t section .rodata 
■align 4 


Align address to multiple of 4 


几 10 


Case 100: be—A 
Case 101: loc_def 
Case 102: loc_B 
Case 103: ioc_C 
Case 104: loc_D 

105: ioc_def 

Case 106: ioc_D 

这畔声明表明，在叫做 “.rodata” （表示“只 i 卖数据”， “Read-Only Data”） 的 N 标代码文件的段 
中，应该有一组7个“长”字〔4个字 节)， 每个 f 的值都是与指定的汇编代码标号（例如 t 丄4) 

相关的指令地址。标号 .L10 标志着这段分配的起始 4 与这个标号相对应的地址会作为间接跳转（指 
令 4) 的基 地址。 

在 switch_eg_impl 中（图 3.15 (b)) T 从标号 loc_A 开始， 一直到 loc_D 和 loc_def 的代码块， 
实现了 switch 语句的五个小间的分支。可以观察到，当 x 超出100〜106范嘲时（初始范围 检査夂 
或者当它等7101或105时（根据跳转衷)，都会执行标号为 [oc_def 的代码块。注意标号为 loc.B 
的代码块是如何落入标号为 loc^C 的代码块的。 

练习埋 3.13 

在下面的 C 函数中，我们; S 略了 switch 语句的主体。在 C 代码中，开关情况标号 （case labels) 
是不连续的，而有些情况还有多个标号。 


■ long - L4 
. 1 ong , L9 

.long .L5 

+ long - T.5 

- long iLS 

.long ,L9 

,Iona *LS 


10 


int swiLch2(int xi { 
int result = 0; 

switch (x:) { 

/* Body of switch statement omitted */ 


return result; 


在编译函数时， GCC 为程序的初始部分以及跳转表生成了下面这样的汇编代码。变量 x 开始时 
是位于相对于寄存器 ％ebp 偏移 f 为8的地方 


Jump table for switch! 

,L11: 

* long ,L4 

,long *L10 

- long ,Lh 

* long .L6 
.long .L8 
,long ,L8 


2 


Setting up jump table access 

movl 8( %ebp), %eax Retrieve jc 
addl %2 f %eax 

cmpl S6,%eax 

ja ,L10 


3 


4 
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ijll (,%eax f 4} 

根据前面的信息来回答下列问题： 

A. switch 语句体内的开关情况标号的值是多少? 
B + C 代码中哪些开关情况有多个标号？ 


a 


* long 丄 9 


] 叩 


3.7 过程 

- 个过程调用包栝将数据（以过程参数和返回值的形式）和控制从代码的一部分传递到另一部 
分。另外，它还必须在进入时为过程的局部变 ft 分配空间，并在退出时释放这些空间。大多数机器， 
包括 IA32, 只提供简单的转移控制到过程和从过秤中转移出控制的指令1数据传递、煱部变暈的分 
配和释放是通过操纵稈序栈来实现的。 


37.1 栈帧结构 

IA32 程序用程序栈来支持过程调用。栈用来传递过程参数、存储返回信息、保#寄存器以供以 
后恢复之用，以及用 P 本地#储。为 节个过 程分配的那部分栈称为栈桢 (stack frame) , 图3,17描绘 
了栈 帧的通用结构。栈帧的最项端是以两个指针定界的，寄#器％也卩作为帧指针，而寄存器％£叩 
作为栈指针 。 当程序执行时 ， 栈指针是可以移动的，因此人多数信息的访问都是相对于帧指针的。 

假设过程 P (调用者）调用过程 Q (被调用者 X Q 的参数放在 P 的栈帧中。另外， 3 P 调 ItJQ 
时， P 中的返回地址被压入栈中，形成 P 的栈帧的末尾，返冋地址就是3枵序从 Q 返回时应该继续 

执行的地方， Q 的栈帧从保存的帧指针的值（例如， %ebp) 讦始 f 后面是保存的其他寄存器的值。 

过程 Q 也用栈来保存其他不能存放在寄存器中的局部变量。这样做是 因为： 

• 寄存器不够存放所有的局部变量。 

• 有典局部变董是数组或结构，因此必须通过数组或结构引用来访问。 

• 要对一个局部变量使弔地址操作符“&”，因此我们必须能够为它产生一个地址。 

最后， Q 会用栈帧来存放它调用其他过程的参数。 

正如前面讲过的那样：桟向低地址方向増长，而栈指针％^?指向栈顶元素 。 可以通过 pushl 和 
popl 指令将数据存入栈中和从栈中取出 。 n 了以通过将栈指针的值减小适当的值来分配没有指定初始 
值的数据的空间。类似地，可以通过增加栈指针来释放空间。 


3.7.2 转移控制 

下表给出的是支持过程调用和返回的指令: 


令 




过程调用 
Operand 过程调用 

为返回准备栈 
从过程调用中返回 


call 


label 


cal 1 


leave 


ret 


call 指令有-个口标，指明被调用过程起始的指令地址。同跳转■样，调用可以是直接的，也 
w 以是间接的。在汇编代码中，肖接调用的□标是一个标号，而间接调用的 H 标是*后面跟…个操作 



144 


数指示符，其语法与 mewl 指令的操作数的语法相 R (图3.3) 


栈 ft 


较早的帧 


地址增 k 


参数 


十 4 - 4n 


屮者的帧 


参数1 


十 8 


返 N 地址 


十 4 


帧指针 

%ebp 


被保存的 ％ebp 


4 


被保存的寄 fr 器、 
本地变 a 和 
临时变 S 


当前帧 


参® 构 造卜域 


栈指针 


%esp 


栈顶 


图 3 J 7 栈桢结构 

找用來伶递参数1 存储 返回馅息、卞存寄存器 t 以及用 f 本地存储。 


call 指令的效果是将返回地址入栈，并跳转到被调用过程的起始处。返 N 地址是 紧跟在 程序中 
call 后面的那条指令的 Mh . 这样3被调用过稈返冋时，执行会从此继续。 ret 指令从栈中弹出地址， 
并跳转到那个位胃。要十:确使用这条指令，就要使栈准备好，栈指针要指向前面 call 指令存储返阿 
地址的位置。 leave 指+町以用来使栈做好返回的准备 D 它等价于卜 fi ] 的代码序列： 


Set slack pointer to beginning of frame 
Restore saved %ebp and set stack pir 

to end of caller's fr 


movl %ebp, %esp 
pop! %cbp 


ytii 
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兄外，这种准备工作也可以通过直接侦用传送和弹山操作来完成 
寄存器以出来返冋值，如罘函数要返回整数或指针的话。 


练习理 3.14 

下面的代码片断常常出现在戽函軚的编译版本中 


■ 

I 


call next 


2 


next : 


3 popl %eax 

A + 寄存器 ％ eax 设置成了什么值？ 

B . 解释为什么这个调用没有配的 rei 指令 

C. 这段代码完成了什么功能？ 


3.7.3 寄存器使用惯例 

秤序寄存器组是惟 一一 个被所冇过稈共享的资源。虽然在给定时刻只能有一个过程是活动的， 
我们必须保 iif 当-个过程（调用者）调用》 i _ 个（被调用者）时，被调用者不会覆盖某个调用者稍 
后会使用的寄#器的值 D 为此， IA 32 采用了一组统-的寄存器使用惯例，所有的过程都必须遵守， 
包拈枵序库中的过 秤、 

根据惯例，寄存器 ％ eax、%edx K % ecx 被划分为调用者保存 (caller save ) 寄存器，与过程 P 
调用 Q 时， Q 可以覆盖这些寄存器，而不会破坏任何 P 所需要的数据。另外，寄存器 ％ ebx、%esi 
和如出被划分为被调用者保存 (calke save ) 寄存器。这意味着 Q 必须在覆盖它们之前，将这些寄 
存器的值保4到栈中，并在返冋前恢 S 它们，因为 P (或某个更高层次的过程）4能会在+后的计 
算中需要这些值.此外 f 裉据这里描述的惯例，必须保持寄存 

调用者保存 


旁注： 为什么叫做 w 被调用者保存 

考虑下面这个场景： 


int P (} 


int X = f (} ; I * S 




Q() 


return x ； 


过程 l > 希望它计算出来的的值在调用了 Q 之后仍然有效 . 知果 x 放在一个谓用者保存寄存赛 
中，而 P (调用者）必须在调用 Q 之前保存这个值，并在 Q 返 W 后恢复该值，如果 X . 在一个味明用 
者保存寄存器中 ， Q (被调用者）想使用这个寄存其，那么 Q 在使用这个寄存驀之前，必须保存这 
个值，并在返回前恢复它.在这两种情况中，保存就是将寄存器值压入拽中，而恢复是拍从栈中弹 
出到寄存器中. 

作为一个示例，考虑下面这段 代码： 


ini P(int x) 


V 
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i.nt z 


= Q(y); 


reLurn y 十 w 


过程 P 在调用 Q 之前计算 y T 佝是它必须保 Hi y 的值在 Q 返回后是可用的。冇两种方式可以做 


到这-■-点 


它 nj 以在调 fflQ 之前，将 y 的值存放在自 B 的栈 帧中； 3(5返["|时，它吋以从栈中取出 y 


的值。 


• 它叫以将 y 的值保存在被调用者保存寄存器中。如果 Q , 或任何其他 Q 调 ffl 的程序，想使 

用这个寄存器，它必须将这个寄存器的值 保存在 栈帧中*井在返回前恢复该值。因此，当 
Q 返冋到 P 时， y 的值会在被调用者保存寄存器中，或者是 W 为寄存器根本就没有改变，或 
者是因为它被保 存并恢复了。 

最常见的是， GCC 使用后一种方法，因为它会尽量减少写和读栈的次数， 


练习《3.巧 

下面这段代码出现在 GCC 为一个 C 过程产生的汇编代码的 前部： 

pu^hl %edi 
pu^hl %esi 
pu^hl %ebx 
movl 7.4 (%ebp) f %eax 

imull 16 (%ebp) , %ea.x 
movl ?A (%ebp) f %ebx 
leal 0(, 埯 eax r 4),%ecx 
addl 8 (%ebp),%ecx 
movl %ebx；%edx 

我们看到，只将三个寄存器 (% edi , %esi *% ebx ) 保存到了栈中，然后程序会修改它们，以 

及另外三个寄存器 （% eax , % ecx 和％6如夂过祖结尾> 用 pop ! 指令恢复寄存器％0<1匕 %esi *%ebju 

而其他三个寄存器就保持修改过的状态。 

请解释这种在保存和恢复寄存器状态中明显的矛盾， 

3.7.4 过程示例 

作为一个示例1虑图3,18中定义的 C 过程 。 图 3.19 给出了这两个过程的栈帧。注意， swap.add 
从 caller 的栈帧中取出它的参数，这苎参数的位置的访问都是相对于寄存器 ％ e bp 中的帧指针的。帧 
左边的数字表小相对于帧指计的地址偏移。 


2 


7 


code/asm/swapadd. c 


mt 3wap_add(int int *yp) 


丄 nt x 


xp; 


4 


ini n 


yp; 


xp = /； 
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yp 


X 


return x 


V ； 


+ 


10 


]1 int caller (} 


12 


Int argl 

int arg2 = 1057 ； 

i nl sum = swap_add (iargl H &arg2 ]； 
int diff 二 argl - arg2 ； 


534 


13 


14 


lb 


16 


17 


* diff : 


18 


return 


19 ) 


code/asm/^)vapadd + c 


3.18 过程定义和调用的示例 


在调用 


体中 


在 


之前 




帧指针 

%ebp -^ 


保存的 %ebp 


0 I 保存的 %ebp 


arg2 




arg2 


caller 


argl 


-8 


argl 


的醜 


+ 12 


&arg2 


-12 


targ2 


栈疳针 

%esp - ^ -16 


+ 8 


fcargl 


targl 


返 0 地址 


+ 4 


Wi 指针 ％ebp - ► 0 保存的 %ebp 

-4 保存的 ％ebx 


swap，add 的找 M 


栈指针 


3.19 caller 和 swap_add 的栈 K 


过程 swap _ add 从 caller 的枝帕中取出 ft 的参数。 


caller 的栈帧包括局部变量 argl 和 ais 2 的存储，其位置相对于帧指针是_8和_4。这些变罨必须 
存在栈中，因为我们必须为它们产生地址。接卜_来的这段来自 caller 编译过的汇编代码显示出它是 
如何调用 swap _ add 的。 


Culling code in caller 
leal -4(%ebp) f %eax 

puahl %eax 

leal -8(%ebp) r %eax 

puahl %eax 
call swap_add 


Compute &arg2 

Push Aarg2 
Compute Aargl 

Push &argl 

Call the swap_add function 


4 


注意，这段代码计算的是局部变量 arg2 和 aigl 的地址（用 leal 指令)，并将它们比入栈中。然 

后再调用 swap_addg 

swap_add 编译过的代码有三个部分 f “ 建立 " 部分，初始化找帧； “ 主体 ” 部分，执行过程的实 
际 计算： “ 结尾 ” 部分，恢复栈的状态和过程返回。 
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下面是 swap _ add 的建立代码。 M 想 一 S call 指令 d 经将返 M 地址压入栈中。 


Setup code in sw&p_odd 
swap_add : 

pushl %ebp 
movl % esp,%ebp 

pushi %ebx 


Save old %ebp 

Set %ebp as frame pointer 

Save %ebjt 


4 


过程 swap ^ dd 耑要用寄存器 ％ ebx 作为临时 存储。 因为这是一个 被_ 用者保 存的寄4 器，它会 
将旧值作为栈帧建立的一部分乐入栈中。 

下 it ] 是 swap ^ add 的主体 代码： 


Body code in swap_add 

movl 8(%ebp) f %edx 
movl 12(%cbp),%ecx 

movl (%edx ),%ehx 
movl (%ecx)^ %eax 

movl %eax；(%edxi 
movl %ebx^ (%ecx) 

addl %ebx,%eax Set 


Get xp 
Getyp 

Get x 

Get y 

T 

Storey at *xp 
Store x at *yp 
return value = x^y 


h 


ID 


11 


这段代码从 caller 的栈帧中取出它的参 数。 因为帧指针已经移动了，这些参数的位 Id 妗从相 
对于 ％ ebp 的旧值的位置12和 -6 移到 T 相对于 ％ ebp 的新值的位置+12和+8,注 I 变量 x 和 y 的 
和是#放在奇屮作为返 回值传 递的。 

卜面是 swap _ add 的结尾 代码： 


Finishing code in swap 一 add 

popl %ebx 

movl % ebp,%esp 
popl %ebp 


12 


Restore %ebx 
Restore %esp 
Restore %ebp 

Return to caller 


13 


14 


15 


ret 


这段代码就是恢复二个寄存 #% ebx 、 ％esp 和 ％ebp 的值，然 后执打 ret 指令 D 注意，可以用一 
条 leave 指令代荇指令13和14。不同版本的 GCC 对此可能会有不同的 习惯， 

下面的 caller 中的代码紧跟在调用 swap . add 的指令 后面： 


movl %eax^%edx 


Resume here 


从 swap + add 返回时，过程 caller 会从这条指令幵始继续执行。注意，这条指令将返 M 值从 ％eax 
拷贝到另•个寄存器 . 


法习 S 3.16 

给定一个 C 函致 


int proc(void) 


int x,y; 
scanff"%x %x 
return x-y ； 


&y ^ & ： x) 
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GCC 产生下而这样的汇编代码 


proc ： 

pushl %ebp 
movl %esp,%ebp 
subl $24,%esp 

addl $-4,%esp 

leal -4(%ebp) f %eax 

pushl %eax 

leal -8(%ebp),%eax 

pushl %eax 

10 pushl $.LCO 

call scanf 

Diagram stack frame at this point 

12 movl -8 (feebp) f %eax 

13 movl -4(%ebp),%edx 

subl %ed>c 

15 j^ovl %edx ； %ea>: 

movl %ebp f %esp 

17 popl %ebp 

ret 


6 


9 


Pointer to siring f '%x %x 


11 


14 


16 


18 


假设过程 proc 开始执行时，寄存器的值如下 


ff 存器 


%ebp 

iebp 


0 咖 0040 


I 


0x500060 


假设 proc 调用 scanf (第11行)，而 scanf 从标准榆入读入值 0 x 46 和 0 x 53, 假设字符串 H %\ %\ 
存放在存储器位里0 x 300070。 

A . 第3行上， ％ebp 的值被设置成了多少？ 

B . 局部交 f x 和 y 的存放地址是什么？ 

C . 第10行后 ％ esp 的值是多少 

D . 画出就在 scanf 返回后 proc 的栈桢的图请包括尽可能多的关于钱帧元素的地址和内容的信息 。 

E . 指出 proc 未使用的栈帧区域（分配这些浪费了的区域是为了改进高速缓存的性能 ) a 

3.7.5 递归过程 

上一节中描述的栈和链接惯例使得过程能够递归地调用它们自身。因为每个调用在栈中都有它 
自己的私有空间，多个未完成调用的局部变量不会相互影响。此外，栈的原则很自然地就提供了适 
当的策略，当过程被调用时分 K 局部存储 ( storage ), 当返回时释放存储。 

3.20 给出了递归的 Fibonacci 函数的 C 代码。 (注意， 这段代码的效率很低——我们用它来作 
为一个说明示例.这不是一个很聪明的算法 ,） 完整的汇编代码如图 3.21 所示 & 


7 


code/asm/ftb.c 


int £ib_rec(int n) 


int prev_va1 P val; 
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5 


if (n 


2 ) 


<= 


6 


return 1; 
prev_val 

val = fib_rec(n-1 )； 
return prev_val 


fib 


rec (n - 




8 


9 


val ; 


10 } 


code/asm/fib.c 


图 3,20 递归的 Fibonacci 程序的 C 代码 


f ib_rec : 

Setup code 
pushl %ebp 
movl %ebi ： 

subl $16 f %esp 

puyhl %esi 
pushl %ebx 


0 


Save old %ebp 
Sei %ebp as frame pointer 
Allocate 16 bytes on stack 
Save %esi (offset -20) 

Saw %ebx (offset -24) 


Body code 

movi 8(%ebp),%ebx 
cmpl $2,%ebx 
jle +L24 
^ddl $-12,iesp 
leal -2(%ebx) f %eax 
pushl %eax 
-dl. fib 


Get n 

Compare n:2 
if <=, goto terminate 

Allocate i2 bytes on stack 

Compute n-2 
Push as argument 
Call fib_rec(n-2) 

Store result in %esi 
Allocate 12 byres on stack 
Compute n-1 
Push as argument 
CaUfib^recfn-l) 

Compuit val-\-nvai 
Goto done 


10 


11 


12 


13 


rec 

: riov: %eax f %esi 
^dd ； $-12,%esp 


14 


15 


16 


—1( %ei>x) ； %eax 


17 


pushl %eax 
cal: fib 

I 

addl ,%eax 

jmp .L25 


18 


rec 


19 


20 


Terminal condition 


21 + L24 


te 


e 


iii\ 


22 


movi $1,%eax 


Return value 1 


Finishing code 


23 




done 


24 


leal -24(%ebp],%esp 

popl %ebx 

popl %esi 

movl %ebp f %esp 

popl %ebp 

ret 


Set slack to offset -24 

Restore %ebx 

Restore %esi 
Restore stack pointer 
Restore %ebp 
Return 


25 


26 


27 


28 


29 


3,21 


3.20 中递归的 Fibonacci 程序的汇编代码 
ffl 然代码有点长，但还是值得仔细研究一下的 □ 建立代码（第2〜6行）创建 




个栈帧，其中包 
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t % tbp 的旧值、未使用的16个字节 3 、保存的被调用者保存寄存器 ％esi 和％此\的俏，如图 3.22 
左边所氺。然后，它用寄存器 ％ebx 来保存过程参数 n (第7行)。一旦满足中止条件，代码会跳转 
到第22行，在此将返回值设为1。 


在 第一次 
递归调用酣 


在创建幻 


mmm 


«用过程 


的栈帧 


的栈帧 


+ 6 


+ 5 ; 


返回地址 


返回地址 


+ 4 


t4 


#指针 

lebp 


讎针 

%ebp 


保冇的 lebp 


-4 保存的％ ebp 


-4 


采用 


未用 


Eib^rec^W 


-20] 保存的 ksi 

保存的 %ebp 


一20 丨 保存的 kei 

保存的 


fib rec 


栈指针 


的栈 M 


%esp 


-24 


未用 


栈指针 

te&p 


-40 


3,22 递归的 Rbonacd 函数的栈帧 

左边足初始建 it 后的袖 状态；右边是第一次递归调用之前的帧状态。 

对于不满足中 li : 条件的情况，指令10〜12会进行第一次递归调用。这包括在栈中分配不会被使 
用的12个字节，然后将计算出来的值压入栈中。此时，栈帧如图 3.22 右边所示。然后，它会 
进行递归调用，引起一连串的_用、分 Sd 栈帧、对局部冇储进仃操作，等等。每次调用返回时，它 
都会释放栈空间，恢复所有被修改过的被调用者保存寄存器。因此，当我们返回到当前调用时（第 
14 行)， 我们町以假设寄存器 ％ eax 包含着递归调用返回的值，而寄存器％ 6 6乂包含函数参数 n 的值。 
返回值 〈 C 代码中的局部变鼋 prev _ val ) 存放在寄存器 ％ esi 中（第14行)，通过使用被调用者保存 
寄存器，我们能保证在第二次递归调用后这个值仍然是可闬的 6 

指令15〜17进行第二次递归调用 。 它会再次分配不会被使用的12个 字节， 并将值『1压入枝 

中。在这个调用之后（第〗8行)，计算出来的结 I 会放在寄存器而我们假设前一次调用的 
结果放在寄存器％從1中。两者相加得到返冋值（第19行)。 

完成代码恢复寄存器和释放栈帧。它 f 先将栈帧设置为保存的％6^值的位置。注意，通过计 
算相对于％^^值的栈的位置，无论是否满足中止条件，计算都会是正确的 & 


2不洧楚为什么 C 编#器会为 这个® 数在栈 中分配 这么多的未便用存储 Storage) 
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3.8 数组分配和访问 

C 屮数纠是一种将标量哂数据聚集成更人数据类型的方式。 C 用来实 5(1 数组的方式非常简苧， 
因此很荇易翻译成机器代码。 c 的一个不问寻常的特点是吋以对数组中的元素产生指针， ji ■对这些 
指针进行运算。这些运算会在汇编代码中翻译成地址汁算。 

优化编评器非常善干简化数组索引所使用的地址汁算，不过这使得 c 代码和它到机器代码的翻 
译之间的对应关系很难理解 D 


3.8.1 基本原则 

对于数据类型 r 和整常数 JV ， 声明 
T MN }； 

有两个效果。昌先，它在存储器中分 KTL ■ w 字节的连续 医域， 这里 l 是数据类型 r 的人小（单 
位为字节) D 我们用 A 来表；起始位置。其次，它引入 f 标识符 A ， A 可以用来作为指向数组开头 
的指针。这个指针的值就是可以用从0〜 / V -1 之间的整数索引来访问数组元素。数组元素 i 的 
存放 地址为 t a + L L 

作为示例， II :我们来■看下面这样的声 明： 


char 

char 

double C [ 6 ]； 
double *D [ 5]; 


A[12 ]； 

B[3}; 


这些声明会产生带卜列参数的数组 


元素大^ 


总大小 


起始地址 


元素/ 


㈣ 


32 


je b +4j 

rlt ； +8j 


48 


20 


■to+4i 


数组 A 由12个单字节 （char) 元素组成。数组 C 由6个双精度浮点值组成，每个值需要 S 个 
字节。 B 和 D 都是指针数组，因此每个数组元素都是4个字 

IA32 的存储器引用指令被设计用来简化数组访问。例如，假设 E 是一个整数数组，而我们想计 
算 E[ih 在此， E 的地址存放在寄存器 ％ e dx 中，而 i 存放在寄#器如^中。然后，指令 


novl (%edx f %ecx,4) , %eax 


会执行地讪计算 A +私 在该存储器位置执行读操作，并将结果#放在 寄存器 中，提礼伸缩 
因子1、2、4和8适 ffl 于基本数据类型的大小。 


琢习 S 3.17 

考虑下面的声明: 


short 

short 


S[7 ]； 


T[3] 
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short 

long double 
long double 


U[6]; 


VIS] 


W[4] 


填写下表，描迷每个数组的元素大小、整个數组的大小以及元素 i 的地址: 


元素大小 *个»组的大小 1 起始地址 


教组 


TIM t 




Js 


T 




U 




V 


Jv 


W 


Jw 


3,8,2 指针运算 

c 允许对指针进行运算，而计算出来的值会根据该指针引用的数据类型的大小进行调整。也就 
是说，如果 p 是一个指向类型 r 的数据的指针， p 的值为;V表达式 p+i 的值为 \ + A 这 
是数据类型 r 的人小。 

单操作数的操作符&和以产生指针和间接引用指针。也就是，对于一个表示某个对象的表达 
式 Expr，&Expr 表# 」个地址。对于表小一个地址的表达式 Addr-Expr，*Addr-Expr 表小该 地址中 
的值。 m , 表达式 Expr 宁 &Ex P r 是等价的。可以对数组和指针应用数组下标操作 t 如数组引用 
A[i]4 表达式 *(A+i) 是一样的。它计算第 i 个数组元素的地址，然后 ii) 问这个存储器位1。 

扩充一下我们前面的例子.假设整数数组 E 的起始地址和整数索引 i 分别存放在寄存器 ％edx 
和 Kill 是-些弓 E 有关的表达式。我们还给出 r 每个表达式的汇编代码实现，结果存放 

在寄存器鈿狀中。 


衷达式 


类型 


汇编代码 


rl 


E 


kovI fcedx, %eax 
MUd rrovl (%edx) , %ea^c 

M[j ： E+4i] irovl (%edx, %ecKj 4) , %eax 

jfe+8 leal 0(%edx) P %eax 

xe+4i4 leal -4 (%edx, %gck, 4) , %eax 
M[j^4h4j] movl (iedx, %ecx), %eax 

i inovl %ecx, %eax 


mt: 


JE 


E[0] 

E[i] 
&E ⑵ 


mL 


int 


*(&E[i]+i) 

&E[il-E 


int 


int 


在这些例子屮， leal 指令用来产生地址，而 movl 用来引用存储器（除了在 第-种 情况中，那里 

它是拷贝一个地址)。最后一个例子表明我们可以计算同…个数椐结构中的两个指针之差，结果值是 
除以数据类型大小后的值。 
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假设短整型數组 S 的地址和整数索引 i 分别存放在寄存器 ％edx*%ecx 中，对下面每个表达式， 
给出它的类型、值表达式和汇编代码 实现。 如果结果是指针的话，要保存在寄存 &%eax $ f 如果是 
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短整数，就保存在寄存器元素％狀中 


衷达式 


类型 


汇编代码 


S + 1 




iS [ i ] 


S[4*i+1] 


S + i-^ 


3.8.3 数组与循环 

在循环代码内，对数组的引用通常有非常规则的模式，优化编译器会使用这些模式。例如， 
3,23 ( a ) 屮所示的函数 dedmal 5 f 计算的是■个由5个十进制数字的数组表水的整数.在把这 
个函数转换成汇编代码的过程中，编译器产生的代码类似于图 3+23( b )( 屮的 C 函数 dedmal 5_ opt , 
_ 先， 它不会使用循环变章 i , 而是用指针运算来依次遍历数组元素。它计算出最后一个数组元素 
的地址 T 井且把与这个地址的比较作为循环测试 D 最后，它能使用因为至少要执 
行一次循环体。 


: tl ! 


3.23 ( c ) 中所小的代码给出 T 一个进一步的优化，以避免使用整数乘法指令。特别地 ，它使 
用 leaU 第5行）来计算 5* val 作为 va l +4* val 。 然后，用伸缩因+值为2的 leal 〔第7行）使之扩展 

为 10 *vah 


code/nsm/decimalS. c 


int decimals (ir：t *x) 


int l 


4 


int val 


6 


Eor fi = 0: 


5; i + +) 


val 


(10 ， val) 


return val 


10 


code/a^m/decima i 5. c 


( a ) 原始的 C 代码 


code/asm/decimal5 r c 


int declmal5_opt(int *x) 


2 


inL val = 0; 
int *xend 


x + 4 




6 


do 
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va 丄 = {10 * val) 

x+ + ; 

} while (x <= xendl ； 


x 


10 


U 


return va _; 


1 o 

丄 |U 


cade/asm/decimal5. c 


Ch ) 等价的报代码 


Body code 

rnovl 8 (%ebp) , %ecx 

xorl %eax, 

leal 16{%ecxt,%ebx 


Get base addrof array x 
val = 0; 

xend = x^-4 (16 bytes - 4 double words) 


2 


loop 


4 .Ll2r 


Compute 5^vat 


leal (%eax,%eax,4),%edx 
movl (%ecx),%eax Compute 
leal (%eax,%edx,21 y %eax 
addl $4,%ecx 

cmpl %ebx ^iecx 

10 jbe . L 12 


5 


x 


Compute + 2*fS^val) 


x+ + 


Compare x:xend 
if < 二 ， goto loop 


Cc ) 相应的汇编代码 


3.23 数组循环 示例的 C 和汇编代码 




编译器产生的代码类似于 decicnalS_opt 中所示的指针代码。 


旁注： 为什么要避免使用整数乘法？ 

在较老的 U32 处理赛模炎中 T 整教来法捎令要花费 30 个时#肩期，所以編译 S 要尽可麻玲避 
免使用它 . 而在大多数新近的处理囍模型中，乘法指令只需要 3 个时仲周期 > 所以不 一定会 进行这 
样的优 化了， 

3.8.4 嵌套数组 

即使是创建数组的数组时，数组分配和引用的通用原则也是有 效的。 例如，声明 

int A[4][31; 

等价于声明 


typedef int row3_t[3 ] ； 
row3_t A[4]; 


数据类型 row 3. t 被定义成一个三个整数的数组。数组 A 包含有四个这样的元素，每个都需要 
12个字节来存放三个整数.所以，总的数组大小为4, 4. 3=48字节， 

数组 A 还吋以看成是一个4行3列的二维数组，从 A [0][0] 到八[3][2】。数组元素在存储器中是 
按照“行优先”的顺序排列的，这就意味着先是行0的所有元素，后面是行1的所有元素，依此类 


推 
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元索 


地址 


A[ 0 ] [ 0 ] 

A[0] UJ 

A[ 0 ] [ 2 J 

A；1 j [0] 

m !][ i ' 

A[l] [ 2 ] 
A[ 2 ] ：0 ] 

A\2) [1] 

A[ 2： [ 2 ] 

M 3] [0] 
A[ 3 ] [ 1 ] 

A ；3] [2； 


x a +8 

^ t +12 

x a +16 


x a -20 

乂 a ， 24 


十 28 


32 


y ^7 


x A +oo 

x a +40 

x a +44 


这种排序方法是我们嵌套声明的结果。将 A 看成一个四元素数组，每个元素又是一个=个 int 
的数组，我们先有 A[01 (也就是行 0), 后面是 AU]， 依此类推。 

要访问多维数组中的兀素，编译器产生的代码要计算待访问元素的偏移，然后再用 movl 指令， 
以数组的起始作为基地址，偏移（可能需要乘以伸缩因子> 作为索引。通常，对一个声明如下的数 


组: 


T Df ^] 1 C ] ; 


数组元素 D[il[jl 是位于存储器地址; c D + L(C i + )) 的，这 Mi 是用字节表小的数据类型 r 的大小。 
看看下 Eft] 这个 例子，考虑前面定义的4 x 3的整数数组。假设寄存器 ％eax 包含 %edx 保存 
着 i， 而％€€又保存着 j。 然后， F 面的代码将拷贝数组元素 A[iHJ] 到寄存器％咖： 


A in %eax r i in %edx，j in %ecx 
sail $2,%ecx 

leal (%edx r %edx,2) f %edx 

leal (%ecx^ %ecx r 4),%edx 

movl (%eax P %edx] f %eax 


j ^4 


jU + i，J 2 

Read M[ jc a + 4(3 - i + ;}] 


珠习蘸 3.19 

考虑下面的源代码，此处， M 和 N 是用 #define 声明的常數: 


^define 


i nt matl[M] [N ]; 

int mat2 [U] [M]; 


4 


int sum_element(int i, int j) 




6 


return matl [ i] [ j ] + mt2 [ j ] [i ]； 


在编译这个程序时 t GCC 会产生下面这样的汇编 代码: 


movl 6 (%ebp),%ecx 
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movl 12 (Sebp) , %eax 

leal 0 C,%eax,4),%ebx 

leal 0(,%ecx,8) f %edx 
sub] %ecx r %f^dx 
addl %ebx f %eax 
sail $2 p %eaj< 

movl mat2(%eax,%ecx,4),%eax 
addl [natl {%ebx, %edx, 4), %eax 


运用你的逆向工程技能，根据这段汇编代码来确定 M 和 N 的值， 

3.8,5 固定大小的数组 

对固定大小的多维数组进行操作的代码， C 编译器能够进行多种优化。例如，假设我们将数据 
类型 fix^matrix 声明为16 x 16的整数数组： 




#define N 16 

typedef int fix_matri^[N][N]; 


n 3.24 (a) 中的代码计算矩阵 A 和 B 的乘积的元素 h k。C 编译器产並的代码类似于图 3,24 
(b) 中所示的那样，这段代码包含很多聪明的优化。编译器认出循环会依次访问数组 A 的元素 

A[i][15]。 这些元素占据的是冇储器中从数组元素 A[iU01 的地址幵始的相邻的 


A[i][0j, A[i][ij f 

位置，因此，程序可以用指针变量 Aptr 来访问这些连续的位置。循环会依次访问数组 B 的元素 
BLORkj, B ⑴ [kj, …， B[15][k]. 这些元素占据的是存储器中从数组元素 B[0][k】 的地址开始的位置， 


分别相距64个字节。因此，程序可以用指针变量 Bptr 来访问这些连续的位置。在 C 中，这个指针 
会增加16,尽管实际上真实的指针会增加 4 .16 = 64。最后，代码可以用一个简坪的计数器来记录 


需要循环的次数 


code/Qsm/arrayx 


1 


#defiae N 16 

typedef int fix_matrix(N][N] 


/* Compute i,k of fixed matrix product */ 

int fix_prod_ele {fix_matrix A, fix_matrix B, int i, int k) 


int j? 


int result 


10 


for {j = 0 ; j < N; j + + ) 

result A[i][j] * B[jl[k ]; 


11 


12 


13 


return result ; 


14 


code/asm/array- c 


( a ) 原始的 C 代码 


code/asm/array, c 


/* Compute i,k of fixed matrix product */ 

int (£ix_inatri>t A, fix_matrix B, int i, int k) 


2 
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int *Apt^ = [i][G ]； 

int *Bptr - &B[C][k ]； 

int cnt - 
int result 


lr 


N 


0; 


do { 


10 


resale f = I + Aptr ) 
Aptr 

Bpir 
cnt -- 

} while (cnL 


(*Dptr); 


11 


十 


12 


N 


13 


14 


0) 


1!> 


15 


return rest]l t 


code/asm/arraw c 

〆 


(h) 优化过的 C 代码 


3.24 原始的和优化过的代码，该代码计算固定长度数组的矩阵乘积的元素 U k 


编译器会完成这些优化。 


我们给出了 flx_p r0 d_ e ] e _ O pt 的（:代码，农说明 C 编译器在产生? I 编时听使用的优化。下面是 
这个循环的实际的 C 编代码： 


Aptr is in %edx，Bptr in %ecx, resuh in %esi r cnt in %ebx 

loop: 


1 ,L23 : 


movl (^feedx) , %eax 
imull (%ecx),%eax 

addl %eax,%esi 

add: $S4,%ecx 

add! $4 f 
deci %ebx 
： ns ,L23 if 


Compute t = Mp^r 

Compute v = 年 Bptr 光 t 

Add v result 

Add 64 to Bptr 
Add 4 to Aptr 

Decrement cnt 

if >= h goto loop 


>= 


注意， / k 上面的汇编代码牝所有的指 ft 增加量均乘以伸缩因 _ f 值 4 


练习鼉 3.20 

下面的 C 代码将一个固定大小的数组的对角线元素设置为 va ] : 


i * Set all diagonal elements to val */ 

void f ix_set:_diag( rix_inai:rix A 』 int va]) 


int i ■ 

for ( 丄 = 0; i < 

A[i] {il = val ； 


5 


N; l + f ) 
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当编译时， GCC 产生如下汇编代码 


movl 12 (%ebp) f %edx 

movl 3 (^ebp),%eax 
movl $ 15 ,%ecx 
addl S 1020 , 
.p 2 align 4 f f 7 

. L 5 H : 


Added to optimize cache performance 


5 


movl %edx H (Scax) 
addl S- 63 ,%eax 

decl %ecx 

丄 50 


10 




创建一个 C 代码程序，它使用类似于这段汇编代码中所使用的优化，风格与图 3.24 ( b ) 中的 
代码一致。 


3.8.6 动态分配的数组 

c 只支持大小在编译时就能知道的多 维数绗 （对于第…维吋能有 A 例外)。在饤多应 ffl 秤序屮， 
我们需要代码能够对动态分配的任 念人小 的数组进行操作 & 为此，我们必须显式地写出从多维数组 
到-维数组的映射。我们可以将数据类型 vaUMtrix 简单地定义为 int *: 


typedeE in~ *va.r_n^atrix ； 


我们用 Unix 的库蜗数 calloc 来为个 / ix / i 的整数数组分配和初始化#储 


1 


vai_n^dcr ix now_var_Tnatrix (int n) 


return {var_matrix} cal loc (sizeof ( ir\i} 


n 


alloc 函数 LANSICt 档的，部分 [32, 401) 冇两个 参数： 每个数组元素的大小和所耑数组兀 

素的数0。它试着为整个数组分配空间，如嘏成功，它会将整个冇储器 K 域初妗化为（)，并返回指 
向第一个 字作的 指计。如果没有足够的吋用空间，它就 返回空 （null)。 

给 C 语亩初学者 s C 、 C ++ 和 Java 中的动态存储*分配和释放 

在 C 中，堆（一个可以用来存故教据结构的存储 葬池） 中的存倚分配是用的库函數 malloc 或 
catloc * 它们的效果类似于 C ++ 和 Java 中的 new 搮作， C 和 C ++ 都要求移序龙:式地用 free 函数来释 
放已分配的空间，在 Java 中，释放是由运行时系统通过一个称为 gart>age collection (垃圾间收）的 
进裎自动完成的，第10章中会讨论这个诂趙. 

然后, 我们用行优先顺序的数组卜标计算方法确定矩阵元素；、^的位貢为 


inL var_ele (var_Tnatrix A, int i r int 


int n) 


J 




return A[\i *n) 


+ 


翻译成汇编代码是这 样的: 



160 


Get A 

Geti 

Compute n*i 
Compute nV + j 

GetAli 本 n+jj 


movl 8(%ebp),%edx 
movl 12(%ebp) H %eax 
mull 2(%ebp) , %eax 
addl 16(%ebp),%eax 
ncvl (%eax,4},%eax 


■ 

n 


5 


将这段代码与用来计算固定大小数组的 K 标的代码相比，我们看到动态版本更加复杂。它必领 
用 j 条乘法指令来将 i 増人 ri 倍，而+ 是用- 组移位和加法指令，在现代处理器中，这种乘法并不 

会带朱严重的性能损失。 

在许多情况中，编译器 W 以使用相同于我们 D 描述的固定大小数组的优比原则*来简化人小可 
变数组的下标计算。例如，图 3.25 (a ) 给出的 C 代码， 计算的是两个大小可变矩阵 A 和 B 的乘积 
的元系 i、k。 在图125 (b) 中，我们给出了 •个优化过的版本，它是根据编译原始版木产生的汇编 
代码逆向生成的。编译器可以利用屮循环结构产 生的顺 序访问模式，消除牿数乘法 和广 iu 在迭 
种情况中，编译器小会产生指针变暈 Bpir, Ifl] 是创建-个我们称为 nTjPk (表¥ “n 乘以 j 加 1. k”） 
的整数变量，因为相对于原始代码，它的值等于 n*j+k。 最开始时， iiTjPk 等于 k， 每次循环时都增 


加 


Q 


code/asm/a rrcty.c 


Lypedef in; ^var_matrix 


2 


/* 


Cornpute i，k of variable matrix product V 
int var_prod_ele (var_matrix A, var_matrix B, int i, int k ； int n) 


4 


J nt ]; 

int result = 0 ； 


for (j 


0; j 


n; j++) 

A [ i*n + j : 


< 




10 


result 


B[j*n + k ]; 


+- 


11 


1? 


return resulL; 


13 } 


code/asm/array, c 


U ) 原始的 C 代码 


code/asm/arrayx 


/* Compute i,k of variable matrix product V 

int var_prod„el e_opt (var_matrix Aj var_matrix int i, int k, int n) 


int *Aptr = &A [i*n ]； 
int nTj Pk = n; 

int cut = 

ini result 


3; 


if (n <= 0) 

return result ； 


10 
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1.2 


do { 


re=juli 


{ *Aptr} * B [nTjPk 」； 


li 


十 = 


14 


Aptr +- 1 ; 


nTjPk 
cnt --； 

} while (cnt )； 


15 


16 


17 


18 


19 


return result 


20 } 


code/asm/arravx 


Cb) 优化过的 C 代码 


3*25 计算可变长数组的矩阵乘积的元素 i、k 的原始和优化过的代码 


编 E ? 器会 fj 动完成 这啤优 fc . 


编译器为循环产生代妈I其中寄存器 ％edx 保存 cut，％ebx 保存 Aptr，％ecx 保存 nTjPk， 而％以 
保存 结果。 这段代码 如下： 


hop: 


L37: 

movl 12 (%ebp) , %eax 

movl (,%edi 
addl $4,%ebx 

imull ； %eax,%ecx,4},%edi 

addl %edi,%esi 
addl 24(%ebp),%ecx 
decl %edx 

.L37 


GetB 


Increment Aptr 
Multiply by BfnTjPk] 

Add to result 
Add n to nTjPk 

Decrement cnt 
If cnt h 0, gotoloop 

注意，每次循环时 》 变量 B 和 n 都必领从存储器中读出。这是一个寄存器溢出 （register spilling) 
的例子 & 没有足眵的寄存器来保存所有需要的临时数据，因此编译器必须将某些周部变量放在存储 
器此时，编译器会选择溢出变量 B 和 n ， 因; tj 它们只用读一次——在循环里，它们的值不变 & 
寄存器溢出是 IA32 —个很常见的问題，因为处理器的寄存器数量太少了 


4 


5 


8 


9 


]nz 


3.9 异类的数据结构 


C 提供 f 两种将不同类型的对象结合到一起来创建数据类型的机制 ：结构 Cstmcture ), 用关键 
字 struct 来声明，将多个对象集合到一个单 位中； 联合 （union)， 用关键字 iinkm 来声明，允许用几 
种不同的类型来引用一个对象 6 

3.9.1 结构 

c 的 St^ct 声明创建一个数据类型，将可能不同类型的对象聚合到一个对象中。结构的各个组 
成部分是用名字来引用的。结构的实现类似于数组的实现，因为结构的所有组成部分都存放在存储 
器中连续的区域内，而指向结构的指针就是结构第一个字节的地址 g 编译器保存关于每个结构类型 
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的信息，指小每个域 （ field ) 的字 V 」偏栘。它以这些偏移作为存储器引 HJ 指令中的位移，从而产生 
对结构元素的 


给 C 语言初学者 t 将一个对象表示为 stmct 

struct 救据类型的构造函数 （ constructor ) 是 C 提供的与 C ++ 和 Java 对象最为接近的东西，它允 
许程序员保存关于一个数据结枸中某些实体的信息，并用名字来51用这些信息. 

例如，一个图形程序可能要用结构来表示一个长方形， 


struct rect { 

int llx ； 

int lly; 
int color 

int width 

int height ; /* Height (in pixels) */ 


/*X coordiiuie of tower-left comer ^ 

/* Y cootdinsite of lowcr-teft corner * / 


/* Coding of color V 
/* Widto (In pixels) 


}; 


我们可以声明一个 structrect 类型的更量 r , 并将它的域值设置为下面这样 


struct rect r ； 
r , llx = r,lly - 0 ； 
r.color OxFFOOFF 
r.width 二 10; 
height = 20; 


r 


这里表达式 nllx 就是结构 r 的 lh 域 5 

将指向结构的指针从一个地方传递到另一个地方，而不是拷臾它们，是 flL 常见的，例如.下面 
的函敖计算长方形的面积，这里，传递给函数的就是一个指向长方形 struct 的 指针： 


int area{5truc^ rect *rp) 


return (+rp).width * .height 


表达式 (* rp ), width 间接引用了这个指针，并且选取所得结构的 width 域.这里必须要用括号， 
因为编译器会将表达式 * rp*width 解释为 *( 平 width )， 而这是非法的。间接引用和域选取的取合使用 
心常常见，以至于 C 提供了 一种作为替代的标识符->，即 rp->width 等价于表达式 (*rpVwidtlu 例如， 
我们可以写一个函教，它将一个长方形向左旋转90 度： 


void rotate_leEt(struct rect * rp ) 


f* Exchange width and height V 
int t 

rp->height = rp->width ； 
rp->width 


=rp->height? 


t ； 


C+f 和 Java 的对象比 C 中的结构要复杂精细得多，因为它们将一组可以被调用以执行计算的方 
法与一个对象联系起来，在 C 中，我们可以简单地把这些方法写成普通函数，就像上面所示的函教 


aiea 和 rotate _ kft s 
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it 我们来看看这样•个例子，考虑下面这样的结构声明: 


sLruct rec { 

int i ； 


int a■3 ]； 

int 


P 


这个结构包栝四个域——两个4字节 im 
指针——总共是24个字 节： 


个由.::: 4字节 int 组成的数绀和 一 个4字节的整数 




偏移 


20 


内容 


注意，数组 a 是嵌入到这个结构中的6 I:图巾顶部的数字给出的是各个域相对结构开始处的字 


节偏移。 


为了访问结构的域，编译器产生的代码要将结构的地址加上适当的偏移。例如，假设 
类型的变景 r 放在寄存器中。然后，下 fl] 的代码将元素 r->i 拷贝到元素 *->j: 


struct rec 


movl (%edx) , %ea.x 
movl 4(%edx) 


Get r->i 
Store in r->j 


因为域 i 的偏移景为 0, 所以这个域的地址就足 r 的值。为了存储到域 j , 代码要将 r 的地址加上偏 


移童4 


□ 


要产生一个指向结构内部对象的指针，我 们只需 将结构的地址加上该域的偏移暈。例如，我们 
只用加上偏移量 S + 4 . 1= 12,就可以得到指针 &0->a[]])。 对于在寄存器 ％eax 巾的指针 r 和在寄存 

中的牿数变量 i, 我们可以用一条指令产生指针 &(r~>a[i]) 的值： 


r in %eax 7 i in %edx 

leal 3 {%eax, %edx, 4) , %ecx %ecx= &r->a[i} 


还有最后一个俠 r-, K 面的代码实现的是语句: 


r->p : &r->a[r->i 


r->j ] ; 


幵始时 r 在寄存 S%edx 中： 

movl 4 (%edx) f %eax 
acdl (%edx) p %eax 
leal 8(%edx,%eax,4),%eax 
movl %eax,20(%edx) 

正如这些示例表明的那样，对结构的各个域的选取完全是在编译时处理的 & 机器代码不包含关 
于域声明或域名字的信息。 


2 


Add r->i 

Compute &r->(r->i + r->j] 

Store in r->p 


3 


4 


终习鼉 3.21 

考虑下面的结构 声明: 


strucz prob { 
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int 

struct, t 

int x ； 
i nL 


y ; 


} S ； 

struct prob *next ； 


这个声明说明一个结构可以嵌套在另一个结构中，就像数组可以嵌套在结构中.数组可以嵌套 
在数纽中一样 & 

下面的过程（省略了某些表达式）是对这个結构进行操 作的： 


void sp_ini^(struct prob + sp) 


sp->s._x 


sp->p 


sp-Mnext 


A, 下列域的偏移量是多少（用字节表 示}? 


P: 




s *y ： 
next : 


B. 这个结构总共需要多少字节？ 

C. 编译器为 spjnil 的主体产生的汇编代码如下 t 


movl 3 (%ebp) , %eax 
movl 3(%eax),%edx 

movl %edx,4(%eax) 

1eal 4(%cax),%edx 
movl ^edx,{%eax ； 
movl %eax f 12(%eax) 


4 


根据这些信息，填写出 spjnk 代码中缺失的表达式。 

3.9.2 联合 

联合提供了一种方式，能够规避 C 的类型系统，允许以多种类型来引用一个对象。联合声明的 

语法与结构的语法一样，只不过语义相差比较人 6 它们不是用不同的域来引用不同的存储器块，而 
是引 ffl 的同一存储 器块。 

看看 F 面的声明： 


struct S3 { 

char 

int iJ 2 

double 


c 


v ； 
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n { 

char c ； 

int i [2 ]; 
double v; 


union 


域的偏移数据类型 S3 和 U3 的整个人小如下表所示 


类型 


大小 


C 


V 


S3 


12 


20 


4 


U3 


0 


(一会儿我们会看到为什么 S3 中 i 的偏移竜为 4 t 而不是 U 对； T 类型 union U3* 的指针 p， 
P ->i[0] 和 P ->v 引用的都是数据结构的起始位置 . 还要注意， 一 个联合的总的大小等 F 它最 


p >c 


人域的大 /j 




在一些情况中，联合十分有用。但是，它也引起了一些讨厌的错误，因为它们绕过了 C 类型系 
统提供的安全措施。一种应用情况是，我们事先知道对一个数据结构中的两个不同域的使用是互斥 
的，那么将这两个域作为联合的一部分，而不是结构的一部分，会减小分配空间的总量。 

例如，假设我们想芡现一个二叉树的数据结构，每个叶了节点都有一个 double 的数据值， [fa 每 
个内部节点都有指向两个孩子节点的指针，但是没有数据。如果我们像这样 声明： 


struct NODE ( 

struct WODE + left ； 
struct NODE *right 
double data; 


那么每个节点需要 16 个字节、每种类型的节点都要浪费一半的字节。相反，如杲我们这样来声明一 


个节点 


MODE { 

struct { 


union 


union NODE *left; 
union NODE bright 
} internal? 

double data ； 


那么，每个节点就 只耑要 S 个字节如果 n 是一个指针，指向 union NODE * 类型的节点，我们用 
n-xlata 来引 用叶子 节点的数据，而用 n->intemaiMt 和 n_>intemal.right 来引用内部节点的孩子 

不过，如果这样编码，就没有办法来确定一个给定的节点到底是叶 f 节点，还是内部 VT 点。通 
常的方法是引入一个附加的标 志域： 


struct NODE { 
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int is leaf 


union 


struct { 


struct NODE *1 户 ft; 

rueL NODE * right ； 
} internal - 

double 6ala; 


)Info; 


这里，对叶了 •节点 来说，域 iUeaf 是 h 曲对内部节点来说，该域的值是0。这个结构总 -A 需 
要 12个字: isjeaf 要4个 * info.internal.left 和 info.intemal.right 各要4个，或者 info.data 要8个。 

在这种情况中，相对十给代码造成的麻烦，使用联合带來的 W 处是很小的。对 T 有较多域的数据结 
构，这样的节哲会更加吸引人一些。 

联合还 nj 以用来访问不同数据类型的位的形式。例如， 卜 面这段代码返 iHl 个 float 作为 unsigned 
的位表尔： 


unsigned £loa^2bit (float f) 


2 


union 


float f; 

unsigned 
} temp ； 

Leinp, f 二 f ； 
return temp.u 


u 


在这段代码中，我们以 - 种数据类型来存储联合中的参数，又以另一种数据类犁来访问它。有 
趣的是，为此过程产生的代码 s 为下囱这个过秤产生的代码是一 样的： 


unsigned copy(unsigned ul 


return u ； 


4 


这两个过程的主体 M 有一条指令 r 


iuovI 8 i % ebp ) , feeax 


这就证明汇编代码中缺乏类型倍息。I 论参数是个 float， 还是一个 unsigned, 它都在相对于 
%ebp 偏移量为8的地方。过程只是简午-地将它的参数拷奴到返冋值，不修 改饪何 位。 

当用联合宋将各神不同大小的数据类型结合到一起字 Vi 顺序问题就变得很重要]\例如， 
假设我们写 f 一个过程，它会以两个 4 字节的 imsigned 的位的形式，创迚 * 个 8 宁节的 double : 


1 


double bit2double(unsigned wordO, unsigned wordl) 


union 


double d ； 

unsigned u[2 ]； 


5 


6 


} temp 
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temp .^[ 0 ] 

temp,j[ 11 

return temp.a; 


wordO ; 
word!; 






10 


在像 IA32 这样的小竭法 nittle-endiaa) 机器上，参数 wordO 会是 d 的低位四个字作，而 wordl 
会是高位四十字节。在大端法 (big-endi^) 机器匕这两个参数的角色刚好相反。 


缘习麵 3.22 

考虑下面的联合声明; 


ele ( 

struct I 

int *p; 

int y ； 


union 


)el; 
struct { 


int. x; 

union ele *next; 


) e 2； 


这个声明说明结构可以嵌套在联合中， 

下面的过程（省略了某些表达式）是对一个链表进行搮作的，而链表的元素是这些联合 


void proc (\inion ele *up) 


) 


I ^ p -> 


uo_> 


up-> 


A. 下列域的偏移量是多少（用字节表示）? 


el .p : 

el -y : 
e2 ,x: 

e2.next : 


B. 这个结构总共需要多少字 t? 

C 编译器为 proc 的主体产生的汇编代码如下 


movl 8( %ebp) f 

movl 4(%eax) f %edx 
movl {%edx),%ecx 

movl %ebp,%esp 

movl (%eax) ^ %eax 

movl (feecx ),iecx 

subi %eax,%ecx 
movl 4{%edx) 


8 


根据这些 信息， 填写出 proc 代码中缺失的表达式，提示 ：有些 联合引用可以有多种意思的解释. 
正如你看到的那样，在进行引用的地方，能解决这种歧义.只有一种答案不需要进行任何类曳转换， 
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也不会违反任何类型限制 


3.10 对齐 （ alignment ) 

许多计算机系统对荜本数据类型的 nj 允许地址做出了 一些限制，要求某种炎型的对象的地址必 
须是某个值 t (通常是2、4或 8) 的倍数，这种对齐限制简化了处理器和存储器系统之间接 U 的硬 
件设计。例如，假设一个处理器总是从存储器中取8个字节出来，则地址必须为 S 的倍数。如罘我 
们能保证所有的 double 都将它们的地址对齐成 S 的倍数，那么就可以坩一个存储器操作来读或者写 
值了 。 否则，我们可能需要执行两次存槠器访问，因为 对象可 能分放在两个8字节存储器块中。 

尤论数据是否对齐 * IA32 硬件都能七确工作，不过， Intel 述是建议要对齐数据以提岛存储器系 
统的性能， Liimx 沿用的对齐策略是2 字奸数 据类型〔例如 short) 的地址必须是2的倍数，而较大 
的数据类型（例如 im、int\ float 和 double) 的地址必须是4的倍数。注意，这个要 求就意 味着一 
个 short 类型对象的地址的最低位必须等于0。类似地，任何 in〖 类型的对象或指针的地址的最低枓 
位必须都是0。 

旁注 ： Microsoft Windows 的对齐 

Microsoft Windows 对对齐的要求更严祐 一~ 任何 jfc 字节 （ 基本） 对象的地址都必须是 Jt 的倍数 . 
特别地，它要求一个 double 的地址应该是8的倍I这种要求提高了存储器性能，代价是浪费了一 
些空间. Limix 中的设计决策可能对 B86 很好，以前存储»十分缺乏，而存储器总线只有4个字节 
宽.对于现代处理器来说， Microsoft 的对齐策略就是更好的选择了 

命令 行选項 -malign-double 会使 Linux 上的 GCC 为 double 类型的数据使用 8 字节的对齐.这会 
提高存储器性能，但是在与用4字节对齐方式下编译的库代码健接时，会导致不兼容. 

确保每种数据类型都是按照指定方忒来组织和分配的，即每种类型的对象都满足它的对齐限制， 
就可保证实施对齐。 编译 器在汇编代码中放入命令，指明全局数据所需的对齐。例如， 3.6.6 小节屮 
跳转表的汇编代码声明的第2行就包含 F 面这样的命令 (directive)： 


« 


■ ■align 4 


这就保证了它后面的数据在此，是跳转表的升始）会从以4为倍数的地址处汗始。因为每个 
袭项彔4个字节，后囟的元素都会遵守4字口对齐的限制 3 

分配存储器的库例程（例如 irmlloc ) 的设计必须使得它们返冋的指针能满足最糟糕情况的对齐 
限制，通常是4或者8。对于有结构的代编译器可能需要在域的分配中插入间隙，以保每个 
结构元素都满足它的对齐要求，而结构本身对它的起始地址也有 - 些对齐要求。 

比如说，考虑下囟的结构 声明： 


struct SI ; 


inL 


char c? 

int i : 


假设编译器用的是最小的 9 字分配，阃出图来是这样的 
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m 


4 


内容 


它是不吋能滿足域 z 〔偏移为 U) 和 j (偏移为 5) 的4字 A 对卉要求的。所以，编译器在域 
和 j 之间插入一个3字节的间隙（在此用“XXX”表示）： 


C 


偏移 


0 


m 


XXX 


结果， j 的偏移*为8,而整个结构的人小为12字节 E 此外 T 编澤器 必须保证任何 struct S1 * 
类型的指针 p 都滿足4字节对齐， ffl 我们前面的符号，II•指针 p 的值为那么， i 必领是4的倍 
数。这就保 tfTp->i (地址和 P >j (地址\+4)都满足它们的4字V』对齐要求6 

另外，编讦器可能盂要添加一些填充到结构的末尾，这样结构数组的每个元素都会满足它的对 
齐要求。例如，看看卜_面这个结构 声明： 


struct S2 [ 

int l : 

int 」 ： 

^ p 

char c : 


如罘我们将这个结构打包成 9 个字节， R 要保证结构的起始地址满足4字节对齐费求，我们仍 
然能够保证满足域 i 和 j 的对齐要东 D 不过，考虑 卜面的声明： 

struct S2 d[4]; 

分配 9 个字节，是不可能满足 d 的每个元素的对齐要求的，这是因为这些元素的地址分別为 JC d 、 

A + 9、 x c ] + 18 + 27 □ 

编译器会为结构 SI 分配 12 个字节，最后3个字节是浪费的 空间： 


偏移 


0 


内容 


这样一来， d 的元素的地址分别为知、心+12、+ 24 in x d + 36. 只要 七是 4的倍数，所冇的 
对齐限制就都可以满足了。 


练习匾3,23 

对 T 面每个结构声明，确定每个域的偏移量、绾构总的欠小以及在 Linux/IA32 下它的对齐要求. 


A. struct Pi { int i ； char c ； int j; ch^r d; }； 

B. struct P2 { int i; char c; char d- t int j; }; 

C. struct P3 { short w[3 ]； char c13] }) 

D* struct P4 ( short w[3 ]； char *c[3l }; 

E. struct P3 { struct Pi a[2]; struct P2 *p }; 


3.11 综合： 理解指针 

指针是 c 语言的一个重要特色它们提供一种统一方式，能眵远程访问数据结构 9 对于编稗新 
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T _ 来说，指针总是会带来很多的困惑，但是基本的概念其实非常简单。图 3.26 中的代码说明了汀多 
送样的概念。 


sLrue 1 ： sti { / + Example Structure 

int t; 

ch&r 




v; 


4 


union uni { 卜 Example Union */ 


t 


8 


char v; 




10 


11 int 




12 


13 void fan(inL* xp) 

14 f 


f i 】 n; /* f is a function pointer */ 


15 


void ( *f) (int*) 


16 


/* Allocate structure on stack */ 

struct str s 


17 


18 


{1 ； 1 a 1 } ; Initialize structure */ 


m 


19 


20 


/ + Allocate union from heap */ 

union uni 


2 "] 


(union uni *) ntalloc (sizeof bunion uni)); 


up 


22 


LocaJly declared array V 

int *ip [2 ] = (xp, hg ); 


23 


24 


2B 


26 


s * v 十 1; 


up->v 




27 


28 


printf i lf ip = *ip 二 %p 

ip, **ip); 

printf ('' ip+1 = %p, ip|l] = %p f *ip[1] = %d\n 

ip+l, ip[l], *ip[U); 

%p, s.v 二 ■■ \n 

printf ( lp ^up->v = %p H up- 
prinLf< n f = %p\n", f )； 

if (--(*xp) > 0} 

f (Xp); 


%d\n 


ip 


29 


30 


31 


32 


print £ i 11 &s 


弓 . v); 




.v 


33 


%c ’n 


&up->v f up-) 1 /J 


>v = 


34 


35 


36 


f * Recursive call of fun */ 


37 


38 


39 ir]t test () 

40 { 


41 


2 ; 


inL x = 

fun(& ： x )； 

return x ； 


42 


43 


44 } 


3.26 用来说明 C 中指针使用的代码 


在 < ：屮 > 指可以指向任何数据类型。 



xp T ip[0],ip!lj 


^nion uni 


union ur.i 


给 c 语言初 学者： 针 

函数指针声明的语法对程序员新手来说是特别难以理解的.对于这样一个 声明： 

void (*f }( int *); 

要从里（从 T 开始）往外读，因此，我们看到像 W 表明的那样， f 是一个#针，像 w (*f) 

表明的那样，它是一个推针，掬向一个以一个 int* 作为麥教的 A 教.最后，我们看到，官是 
一个指向一个以 int * 作为麥教并返10 void 的函数的指针. 

*f 两边的括号是必須的，因为否則声明 


void + f ( int *) ； 


就料成 


(void *) f ( int *); 


注意，在前面那张表中，我们既指出了指针本身的类型，也指出 r 它所指向的对象的 
类型。通常，如果对象类型为 r , 那么指针的类型为％特殊的 void * 类型代表通用指针。 
龙如说， malloc 凼数返回一个通用指针，然后它伟被强制类型转换成个有类型的指针 C 第 

21 行)。 

每个指针都有一个值。这个值是某^指定类型的对象的地址。特殊的 NULL (0) 值表示该 
指针没有指向任何地方。枵会儿，我们会看看我们的指针的值。 

措针是用算符创建的。 S 个运算符可以应用到任何 Walue 类的 C 表达式上， fe 就是可以 
出现在赋值语句左边的表込式，这样的例子包括变最以及结构、联合和数组的元素。在我们 
的¥ •例代 码中，我们看到这个探作符应用到全局变量 g 上（第24行)，应用到结构兀素 
I ：(第32 行乂 应用到联合元素 up~>v h (第33行），以及应用到局部变量 x 上（第42行)。 

* 操作符用丁指针的间接引用 D 其结果是一个值，它的类型与该指针的类型相关.我们看 
到间接引用应用到中和*4匕（第29行），应用到 ip [ l ] 上（第31行)，以及 应用到 xp 上 
(第35行乂此外，表达式 up >v (第33行）既间接引用了指针 up , 同时还选取了域 v 。 

数组勺指针是紧密联系的。可以引用 个 数组的名字（但是不能修改)，就好像它是一个指 
针变景一样。数组引用（例如， a [3]) 与指针运算和间接引用〔例如， *( a +3)) 冇 -样的效 
果。我们可以在第29行看到这一点，我们打印出数组 ip 的指针值，井用* ip 引用它的第一 
项 (元素0)。 

指针也可以指向函数。这提供了一个很强大的存储 ( storing ) 和传递代码引用的功能，这些 
代码可以被程序的某个其他部分调用。看看变量 f (第15行)，它被声明为一个指向函数的 
变鼠，该凼数以一个 int * 作为参数，并返回 void , 陚值语句使 f 指向 fut 当在后面我们使 
用 f (第36行）时，我们是在进行递归 调用。 


S.V 


指针类型 


对象类型 


针 


每个指针都有，个类型。这个类型表明指针指向的对象是哪一类的。在我们的小例代码中， 
我们看到了下面这样_些指针类型： 
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C 


J1* 


也就是，它会被解释成一个函数原型，声明了一个函教 f ， 它以一个 im * 作为参数并送回一个 


void 


* 


Kemighan 和 Ritchie [40, 5.12 节〗给出了一个有关 KJ 读 C 声明的很有帮助的教程， 

我们的代码包含很多对 printf 的调用，打印出-些指针（用指令％?)和值 D 在执行时，产生卜 _ 
® 这样的 输出： 


ip[0 } ，平 -jc = 2 


OxbfffefaS, *ip - 0xt>fffefe4 


■ 


丄 P = 


ip+1 = Oxbfffefac, ip[i] = 0x804965c, *ip[lj = 15 ip[l} = &g.g^ 15 

[w = OxhCf £efb4 


sin stack frame 

up points to area in heap 

fpoints to code for 細 


3 


a 1 


? .v 


4 &up - >v 


0x8049760 f ap->v 
0x8048414 

3xbffEef68 

7 ip+1 = 0xbfffef6c, ip[l] = 0x804%5c, *ip[L] 

8 . v - C'xbf ffef?4 

9 &up->v 

10 E 


b_ 


5 




Oxbf f f cf o4 


-LP 


IP 




? j-jra 


15 ip[i} 


as before 




sinnewfiwne 

up points to new area tn heap 
fpoints io codeforfim 


a 


0x3049770, up->v - "b 

0x8C4S414 


我们看到，这个函数执行了两次— ■第 ■次是从 test 中直接调用（第42行)，而 第二次 是间接 

的递！ H 调用（第36行)。我们叮以看出，打印出来的指针值都对应于地址。那些从 (kbfffef 开始的 

指针指向栈中的位 f , 而其他的是全 M 存储的一部分 (0 x804965c ) ,或是 nj 执行代码的部分 
(0x8048414), 或#1 堆中的位置 （0x8049760 和0x8049770)。 

数组 ip 被初始化了两次——每次调用 fim 都初始化一次。第-次的值 (0xbfffef68) 小于第一次 

的值 （ OxbfffefaS ) ， 这是因为栈是向下增长的。不过，数组的内容两次都是一样 的， 数组元素 OOip ) 

是 -- 个指向 test 栈帧中变量 x 的指针 T 元素 I 是一个指向全局变量 g 的指针。 

我们可以吞到结构 s 也被初始化了两次，两次都是在栈中，而变暈 U p 指向的联合是堆中分配 




最私 变取 f 是■个指向函数 frni 的指针，在反汇编代 码中， 我们看到如 Tfim 的初始化 代码: 


08048414 <fun>: 
B048414 ： 55 

[: -48415: 89 eb 

8048417 ： 83 ec lc 

804841a ： 57 


push %ebp 

%esp,%ebp 

sub $0xic , %esp 

push %edi 

打印出来的指计 f 的值 0 x 8048414 就是 ftm 的代码屮第-条指令的地址。 

给 C 语言初 学者： 向函数传递参数 

其他语言（例如 Pascal ) 提供两种方式来向过狂转递参教-传值 （by value ) 和引用 （by 

reference ), 传值是指调用者提供实际的参教值> 而引用是指調用者提供一个指甸该值的指针.在 C 

中，所有的参数都是传值的，但是我们可以通过显式地产生一个指向_个值的搾针，并把该杻针传 
递给过狂，从而实现了引用参教的效果 • m fun (& x ) ( S 3.26) 中的参教 xp 就是这样的，笫一 
次调用 fun (& xi 时（弟《行)，给了姿教一个对 lea 中局部吏量 x 的引用 6 每次调用 fim 时，这个 
变量都会戒小，从而在两次调用之后，进归会伴止， 


mov 


4 
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3.12 现实生活：使用 GDB 调试器 

GNU 的 调试器 GDB 提供了许多柯用的恃性来支持对机器级枵序的运行 时评佔 W 分 t 我们试 
阕用本书屮的示例和练习，通过阅读代码，来推断出程序的行为。有了 GDB * 通过观察正在运行的 
程序 f 同时又对程序的执行冇相当的控制，这就使得研究 W 序的行为变为 可能。 

图 3.27 给出了 ■些 GDB 命令的例子，在使用机器级 IA 32 程序时，会有所帮助。先运行 OBJDUMP 
来获得程序的反汜编版本，是很有好处的。我们的示例都是基于对文竹 prog 运行 GDB 的，稈序的 
描述和反汇编 都在第 110 页。 我们用下面的命令行来启动 GDB : 


unix> gdb prog 


a 常的方法是在程序中感兴趣的地方附近设置断点。断点可以 设置在 函数入 n 后面.或是设置 
江一个程序的地址处。在程序执行过程中，遇到一个断点时，程序会停下来，并将控制返冋给用广。 
在断点处，我们能够以各种方式杳看各个寄存器和存储器位置。我们也可以申步跟踪程序，一次只 
执行几条指令，或是前进到下一个断点。 


命令 


效果 


开始和停止 


Exit GDB 

Run youi program (give command line arguments here ) 

Slop your program 


quit 

run 

kill 


断点 


Set breakpoint at entry to function sum 
Set breakpoint at address 0 i 80483 c 3 

Delete breakpoint 1 

Delete all breakpoints 


break sum 

break *0x80483c3 

delete 1 
delete 


执行 


Execute one instruction 

Execute four instructions 

Like stepi , but proceed through ftinction calls 

Resume execution 

Run until current function returns 


steui 

■ 

stepi 4 

nexLi 

continue 

finish 


检査代码 


disas 

disas 

disds 0x80483b7 
disas Qx80483b7 0x80483c7 


Disassemble current function 

Disassemble function sum 

Disassemble function around address 0 x 80483 b 7 

Disassemble code wiflim speci.ed address range 

Print program counter in hex 


sum 


print /x $eip 


检査歎揭 


print $eax 
print /x $eax 
print /t $eax 

print DxlDO 
print /x 555 
print /x f$ebp-h8) 


Print contents of %eaxin decimal 
Print contents of %eax in hex 

Print contents of %eax in binary 
Print decimal representation of 0 x 100 
Print hex representation of 555 

Print contents of %ebp plus 8 in hex 
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prim *Unt ” Dxbffff890 
print ^(int *) ($ebp+8) 

x/2w 0xMfff89Q 


Print integer at address 0xbffffB90 

Print integer at address %ebp + 8 

Examine two (4-byte) words starting at address 

0xb-ffff890 

Examine *rst 20 bytes of function sum 


x/20b 

有用的信息 


sum 


info frame 
info registers 
help 


Information about current stack frame 
Values of alt the registers 
Get information about GDB 


3.27 GDB 命令示例 


a 


这 P 例子说明 r 几种 GDB 支持机器级程序调试的/」式 B 

il： 如我们的示例表明的那样， GDB 的命令语法有点含混晦涩，但是在线帮助信息（用 GDB 的 
help 命令调用）能克服这些毛病。 


3.13 存储器的越界引用和缓冲区溢出 


我们己经看到， c 对于数组引用不进行任何边界检査，而 uw 部变量和状态信息（例如寄存器 
值和返回指针）都存放在栈中。这两种情况结合到一起就能导致严重的程序错误，^个对越界的数 
组元素的写操作破坏了存储作.栈中的状态信息。然后，当程序使用这个被破坏的状态，甙阁$新加 
载寄存器或执行 re 〖指令时，就会出现很严重的错误 & 

一种特别常见的状态破坏称为缓冲IX溢出 (buffer overflow). 通常，在栈中分配某个字冇数组來 
保存一个字符串，但是字符串的长度超出了为数组分配的空间 3 下宜这个稈序示例就说明了这个问题: 


Implementation of library function gets() */ 

cY\dr (char 


丄 nt: c ； 

char ^deaL = s ； 

while ({c : getchar{)) != ' \n l && 
+ dest++ = c ； 

+ deKt + + - 1 \ 0 1 ； / + Terminate String *1 

if (c =: EOF) 

return NULL; 

return s : 


Wb') 


8 


q ■ 


f 半 Read input line and write it back */ 

1 5 void echo() 


14 


16 


char buf [4 ] ； /* Way too small! *( 

gets {ou£ )； 

puts(buf )； 


19 
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20 


前面的代码给出了…个库函数 gets 的实现，用来说明这个函数的严重问题。它从标准输入读入 
一行，屯遇到一个“ \ n ” 字符或某个错误情况时停止。它将这个字符串拷贝到参数 s 指明的位胥， 
并在字符串结尾加上 mill 字符。在函数 echo 中，我们使用了 gets ， 这个函数只是简单地从标准输入 

屮读入，再回送到标准输出。 

gets 的问题是它没有办法确定是否为保存整个字符串分配了足够的空间。在我们的 echo 示例中, 
我们故意将缓冲区设得非常小——只有四字节长。 任何栓 度超过3个宇符的字符串都会导致写越界。 

研究 echo 汇编代码的这一部分 * 看看栈是如何组 织的： 


1 echo 


Save %ebp on stack 


2 


pushl 

movl %esp f %ebp 

subl $20,%esp 

pushl %ebx S^ve iebx 

addl $-12,%esp 
leal -4(%ebp),%ebx 

pushl %ebx 

call gets Call gets 


Allocate space on stack 


AUocate more space on stack 
Compute bi^ as %ebp-4 
Push bufon stack 


8 


在这个例了-中，我们可以看到，程序总共为局部存储 （ storage ) 分配了 32个字节（第4行和第 
6 t ?>, 不过，字符数组 buf 的位置 ^% ebp 下方四个字节处（第7行）。图 12 S 给出了得到的栈结构。 
小:如看到的那样，所有对 buf [4 卜 buf [71 的写都会导致的保存值被破坏。当程序随后试图以它 
为栈指针进行恢复时，所有后来的栈引用都会是非法的.所有对 buf [8 卜 buflll ] 的写都会导致返回 
地址被破坏。 a 在函数结尾执行如指令时 f 程序会“返回”到错误的地址 a 像这个示例说明的那 
样， 缓冲区溢出町能导致程序出现严重的错误。 


调用者 


的栈祯 


返回地址 


保存的 


[3] [2] [1] [0] buf 


echo 


W 栈幀 


图 3.28 echo 函数的栈组织 

字符数 ffibuf 就在保存的状态下面，对 buf 的写越界会破坏枵序的状态 4 


我们的 echo 代码很简单 T 但是有点太随意了。更好一点的版本是使用 fgets 函数，它包括一个 
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--个参数，限制待读入的域人字节数。家庭作业 3.37 要求你写出-个能处理任意长度输入字符串的 
echo 函数。通常，使用 gets 或其他能导致存储溢出的函数，都是不好的编程习惯。当编译一个禽有 

调用 gets 的文件时， C 编译器甚至会产牛这样的出错信息 ： “the gets function is dangerous and should 
not be used ( gels 函数很危险，不应使用）。” 


code/asm/b ufovf, c 


I* This is very low quality code. 

It is intended to illustrate bad programming practices. 
See Practice ProbJem 3.24 

char *get1ine() 


char buf[8]; 

char ^result ； 
gets{buf )； 

result = mallocistrlentbuf)); 
strcpy(result, buf) ; 
return(result); 


10 




code/asm/hufoyf. c 


C 代 W 




08048524 <getline>: 

8048524 

8048525 ： 89 e5 

8048527 
S04S52a: 56 

804852b: 53 

Diagram stack at this point 
804852c: 83 c4 f4 

804852f: 8d 5d f8 
8048532 
80^«533: e8 74 fe ff ft 
Modify diagram 10 show values at this point 




push % ebp 
mov lesp r %ebp 

sub $0x10 ^ %esp 

push %esi 
push %ebx 


4 


83 


10 


ec 


6 


add $0Kfffffff4,%esp 

lea Oxfffffff8(%ebp),%ebx 
push %ebx 

call 80483ac <_init+0x50> gets 


53 


10 


对 gets 调用的反汇编 

图 3.29 练习麵 3.24 的 C 和反汇编代码 


练习題 3.24 

围 3 .29给出了一个函数的（不太好的）实现，这个函数从标准输入读入一行，将字符串拷贝到 
新分配的存储，并返回一个指向结果的指针 & 

考虑下面这样的场景 :过程 getline 被调用 > 返回地址等于0 x 8048643,寄存器 ％ ebp 等于 0 xbfffTc 94 , 
寄存器等于0 x 1，而寄存器％6匕等于 0 x 2 6 愉入字符串为 "0 1234567890 P , 程序会因为段错误 
(segmentation fault ) 而中止。运行 GDB , 确定出 错误是 在执行 get ] ine 的 ret 指令时发生的， 

、 填写下图，说出尽可能多的关于在执行完反汇编代码中第6行指令后栈的信息。在右边标注 
出存储在钱中的数字的意思（例如^ “遂回地址”），在方枢中写出它们的十六进制值。每个方框都代 
表4个字节。另外，还需指出％ ebp 的位置. 
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返 M 地址 


0 S 04 86 43 


B. 修改你的图，以展现调用 gets 的影响（第10行) Q 

C. 程序应该试 S 返回到什么地址？ 

a 当 getline 返回时，哪个（些）寄存器被破坏了？ 

E. 涂了可能会缓冲区溢出以外， getline 的代码还有哪两个错误？ 

缓冲区溢出的 - 个更加致命的使用就是让程序执行它本来不愿意执行的 函数。 这是一种最常见 
的通过计算机网络攻击系统安全的方法。通常，输入给程序一个字符串，这个字符串包含一些诃执 
行代码的字甘编码，称为 exploit code, 另外，还有一些字节会用一个指向缓冲区中那些可执行代码 
的指计覆盖掉返回指针。所以，执行 m 指令的效果就是眺转到 exploit code。 

在-种 攻击形式中， exploit code 会使用系统调用启动一个 shell 程序，提供给攻 ill 有一组操作 
系统的函数。在另一种攻击形式中， exploit code 执行一些未授权的任务，修复对栈的破坏，然后第 
二次执行 ret 指令 f (看上去好像）正常返回给调用者。 

止我们釆看…个例著名的 Internet 蠕虫病毒在1988年 U 月通过 Imemet 以四种不同的方法获 
取对许多计算机的访问。 一 种是对 finger 守护进程 fmgerd 的缓冲区溢出攻击， fingerd 是通过 FINGER 
命令来服务请求的。通过以一个适当的字符串调用 FINGER, 蠕虫可以使远程的守护进程缓冲呙溢出 
并执行一段代码，该代码能让嫫虫访问远程系统。一旦蠕虫获得了对系统的访问，它就能自我复制， 
几乎完全地消耗掉机器上所有的计算资源 D 因此，在安全专家抓住如何消除这种蠕虫的方法之前，成 
百上千的机器实陈上都瘫痪了。这种蠕虫的始作诵者最后被抓住并被起诉。他被判处三年徒刑（缓期 
执行)、400个小时的社 K 服务以及10500美元的罚款，不过，即使到今天，人们还是在不断地发现使 
他们容易道受缓冲区溢出攻击的系统安全漏洞，这更加突显了小心仔细编写程序的必要性，任何到外 
部环境的接口都应该是"防弹的”，这样，外部 agem 的行为才不会导致系统出现错误。 

旁注；•虫 和病骞 / ' 

蠕虫和病毒都是试®在诗算表中待轎它钔 ft 己的代碍部 f ，蠘 i 
(worm) 是这样一种私字，它可以自己运衧，并1能够将一个完全有故的66传#对其体我黑.与 
此相应地，病毒 （vims) 是这样一段代场，它能将自己添加到包括搮作系 It 在内的其他程序中，租 
它不能独立运行.在一些大众媒体中，术语*病毒”用来指各种不同的在系鹹錡去代^袭 
略，所以你可能会听到人们把本来应该叫儀*蠕央，的东西称为了 “病毒\ 

■ 

在家庭作业 3.38 中，你可以获得准备缓冲 E 溢出攻击的第一手经验。注意，我们不能原谅任何 
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用这种或其他仔何方法来获得对系统的未被授权的访 H 。 未经许可闯 入计算 机系统勺闯入•崦建筑 
是一样的——是一和犯罪行为，即使犯罪者并没有恶意。我们给出这样一个作业有两个 原因： t 先， 
它耍求对机 器语肓 编程有很深的了解，将咋多问题结合广起束，例如栈的组织、字节排序以及指令 
编码。其次，通过讲解缓冲区溢出攻击是如何进行的，我们希望你能了解到编写不允 许这种 攻市的 
代码的重要性。 

旁注：借助干缓冲医滋出与 Microsoft 作战 

在1999年7月， Microsoft 提出了一种即时消息 （IM) 系统，其客户端与洗行的美 S 在线 UOL) 
的 IM 服务器兼容.这就使得 Microsoft 的 IM 用户可以和 AOL 的 IM 用户聊天，不过，一个 月后， 
Microsoft 的 IM 用户突然神秘地不能与 AOL 的 IM 用户聊 天了. Microsoft 发布了更新的客户鴆，恢 
复了对 AOUM 系统的默务，但是几天之内，这些客户端也又不能工作了，尽管 Microsoft 版本的客 
户越不断地尝试模仿 AOLIM 的协议，不知怎么地， AOL 就是能够确定一个用户是否运行的是 AOL 

版本的 IM 客户端， 

AOL 客户端代码容易遭受緩冲区溢出攻击.这很可能是 AOL 代瑪中一个因疏忽所致的“特色' 
AOL 利用它自己代码中的这个#谋，通过在用户發味时攻击客户蟪，来发现 假曹者 * AOL 的 exploit 
⑽ te 从客户蟪的存儋器破像中取出很少查的位置样本，将它扪打成‘个网络包，发送回版务器，如 
果服务器没有收到这样的包，或者如果收到的 fc 与領期的 AOL 客户端的 " 足迹”不匹配，那么服 
务器就会假定这个客户蟪不是 AOL 的客户端，并拒绝它的访两，所以，如果其他 m 客户端，例如 
Mictosoft 的客户端，想访问 AOL 的 IM 簌务器， 他 们不仅要加入 AOL 客户端中存在的级冲区溢出 
错谈 * 而且在适当的存俯器位置中，还要有完全相同的二进制代碎和教振，但是， 一 旦他们使这些 
位置相匹&了，将他们新的客户端程序甸用户分发了， AC^ 只需简单地修改它的 exploit code, 取出 
客户端存德器缺像中不同的位置样本.很明显，这是一场非 AOL 客户端永连也不可能蒎的战争！ 

整个事件是一波三 折的， 关于客户搞错试和 AOL 利用这个#误的消息最早泄露出来，是有人 
f 充名为 Phil Bucking 的独立咨询顧两，甸有名的安全专家 Richard Smith 发了一封电子邮件，讲述 
了这个消4。 Staith 进行了 一些乘緯，发现这封邮件实咏上是从 Mfcrosoft 内部发出的.后来 Microsoft 
承认它的^个雇员 发了这 对邮件 [51 i. 而在这场论战的夷一方， AOLft 不承认有这样一个错谈，也 
不承认_利眉这个错误，即使是在渙大利亚的 tkoffChapell 将结论性的证振公之于众之后. 

鄙么，在这个事件中，谁违反了輝些行为耗范！^首先， AOL 没有义务南非 AOL 客户蜞开发 
它的加系统，所以他们 徂止 Mfcmtoft 是 jE 当的 • 另一方使用級冲区漾出是件很棘手的事飧 fl 
—个很小的错误可 ft 就会夺鲛 t 户螭计算机屬濟，而直它使得乘统更客易遭受外部主体的攻击（蛊 
然没有该据显示☆经发生了这样的事情)， Microsoft 将 AOL 故意使用级冲区溢出分之于众是对的， 
不边，用 PhiJ Bu ^ kiag 达样的仗《来散布这个消息，无论是从道德上来说，还是从公共关系的角度 
来看，明 I 都是#误的. 


3.14 t 浮点代码 

处理浮点值的指令集是 IA32 体系结抅最不优美的特性 之一。 在最早的 Intel 机器中，浮点是由 
一个独立的协处理器来完成的，这个部件有它自己的寄存器和处理能力，能够执行一部分指令 。这 
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个协处理器是由名为8087、80287和 i3S7 的独立芯片实现的， H 伴随着处理器芯片8086、80286和 

!386,在这些户品的开发过程中，芯片的容鼋己经不足以在一诀芯片上既包括卞处理器乂包括浮点 

协处理器的。另外，廉价的机器会省去浮点硬件，只用软件来完成浮点操作（非常慢！）。从 i486 开 
始，浮点就作为 IA32 CPU 芯片的一部分了。 

1980年，最早的8087协处理器的问壯赢得了很高的赞誉。它是第 一 个单芯片浮点单元 （FPU), 
同时也是 IEEE 浮点的第一个实现 6 作为协处理器运行时，在主处理器取出浮点指令后 f FPU 会接 
过它们完成执行。 FPU 和主处理器之间有最少限度的迮接，将数据从一个处珲器传递到另一个，盂 
要发送方处理器写存槠器，接收方处理器再从存储器中读取。直到今入 1A32 浮点指令集中还保留 
有这些设计的遗迹=另外， 19S0 年的编 译技术 比今大的简陋得多。对 f 优化编译器来说， IA32 浮 
点的许多特件都是很难的0标。 


3.14.1 浮点寄存器 

;孚点申元包括8个浮点寄存器，但是和普通寄存器不-样，这些寄存器是被当成一个浅钱 
Uha〗]ow slack ) 来对待的。这些寄存器分别标 识为如 t (0)、% st ( l ), 等等，貞到 ％ st (7) 3 其中， % st (0) 

在栈顶。当压入栈中的值超过 S 个时，栈底的那些值就会消失. 

大多数算术指令不会内:接引用寄存器，是从栈中弹出它们的源操作数，计算结果，冉将结宋 
出入栈中。在20世纪70年代，栈结构还被认为是很聪明的想法，因为它们提供 f 一种简申的对算 
术指令求值的机制，同时它们也允许指令的密集编码 （ densecodingh 随着编评技水的进步，同时， 
指令编码所需要 的存储 器也不再是很关键的资源.这些属件就不再重要了。写编译器的人会 更高 〉 X 
TT 一组更大的、使用方便的浮点寄存器。 


旁注 t 其他基于桟的语窗 

基于栈的解释器仍然被广泛用傲高级进言和它到实际机器上均决射之闽的中 用表示 . 其他基于栈 
的求值程序的示例包括 Java 字卞代碑、 Java 編译器产生的中两格 L 以及細 tScript 東面格式化诱言, 

将浮点寄#器组织成一个有界的栈，使得编译器很难用这些寄存器來存放一个调用其他过程的过 
程的周部变量。对于局部变量的存放 f 我们己经看到，有些通用寄存器可以被指定为由被 调用# 保存， 
因此，对以用来保存跨过枵调用的局部变量。这种指定对 IA32 浮点寄存器来说是不可能的，丙为它 
的标识 随着值 it 入栈中和从栈中弹出是变化的。一个压栈操作会使 ％st(0 沖的值现在在 ％st(l) 中 

另一方面，它会将浮点寄存器作为真正的栈来对待，每次过程调用时，都将本地值压入其屮。 
不幸的是，很快就会导致栈溢出，因为只有够放8个值的位置。作为代替，编译器产生的代码会在 
调用另一个过程之前，将每个本地浮点值都压入到主稈序栈中，然后在返回时把它们取出来 & 这洋 
引起的存储器访问操作会降低程序的性能。 

像 2.4.6 节巾说明的那样， IA32 浮点寄存器的宽都是80位，它们以家庭作业158中描述的扩 
展精度 格式来对数字编码。当从存储器加载到浮点寄存器时，所有的单精度和双賴度数都转换成这 
种格式。运算总是以扩展精度格式执行的 & 当存回存储器中时，数字会从扩展精度转换成申精度或 

双精度格式。 

3.14.2 栈的表达式求值 

为了理解 1A32 是如何用它的浮点寄存器作为栈的，〖I:我们来看看基于栈来求值的一个更加抽 
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象的版本。假设我们有-个算术黾元，它用栈来保存中间结果，其指令集如图130所示。比如说， 
所谓的 RPN (Reverse Polish Notation , 逆波兰表示）袖珍计算器就提供了这种特性。除 f 这个栈， 

该笮元述有一个可以保存值的存储器，我们用名字来引用这些值，冽如 a 、b 和 x, 如图 3.30 表明的， 
我们能够用 bad 指令将存储器值佧入这个栈屮。操作弹出栈顶元累，并将结果存放到储器 
中。笮操作数的操作，例如 neg (求反)，将栈顶元素作为它的参数，井 用结果 覆盖这个元素。双操 
作数的操作，例如 addp 和 mu]tp f 以栈项呐个元素作为参数。它们会将两+参数都弹出 + 然后将结 
果佧回栈中。我们在存储、加法、减法1乘法和除法指令 后面加 上后缀 “p' 是为了强凋这些指令 
弹出了它们的操作数。 


指令 


J 




将 S 处的 fAtt 人 ft 中 
#出栈顶儿 R 并#储在 D 处 
栈顶 / t 索取负 

弹出两个栈顶元素；压\它们的和 
弹出两个饯顶 元素： ] k \ 它们的£ 
弹出两个浅顶 元索； 汛入它们的枳 
押出内 t 栈1 允索： 压 入它们 的比值 


load S 
storep D 


neg 


addo 


subp 

1 Lp 


aivp 


3.30 假设的栈指令集 


这些指令用来说明苺 T 栈的表达式求值 ： 

作为…个小例，考虑表达式 x =( a - b )/(- b + c) D 我们可以将这个表込式翻译成 F ® 的代码，在每 

-行代码旁边，都给出了浮点寄行器栈的内容，为 fS 我们前 面的惯 例保持 一 致，我们画的栈是向 
下增长的，所以栈顶实际 L 是在最底部。 


C 


load 




-hr 


、st (3) 
(1) 

^ SL { C ) 


h 


load b 


山 

%st (0) 


h 


subp 


^st (1) 


ney 


%st (1} 
%st lOl 


divp 


%st (0) 


addp 


4 


%st (0) 


storep x 


load 3 d 


- ■办十 l l 


% sr ■⑴ 


就像这个洌子说明的那样，将一个算术表达式转换成栈代码是一个夭然的递归过程。我们的表 
达式 U 法规定种类型的表达式. fl 有 F 列翻 i 華规则： 

1. 格式力 Var 的变 量引私 是用指令 bad Var 来实现的。 


1 格式为 -Expr 的苹操作数操作。这是用先产生 Expr 的代码，然后再跟一条 neg 指令来实现的。 
3. 格式为 Expn + Expr 2 、 Exprj - Expr ^ Expr 】* Expr 2 . Expq / Expr 2 的双操作数 操作。 它的实 
现是产生 Expr 2 的代码，然后是 Expr 〗 的代扎然, IS 是一条 addp 、 subp 、 mu ] tp 或 divp 指令。 

格式为 Va^Expr 的賦值操作。这是通过先产生 Expr 的代码，然后跟一条 storepVar 指令来 


4 


鎌的 
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作为一个示例，看看这样一个表达式 x = a-b/c, 因为除法的优先级高于减祛，这个表达式加 

■(b/c), 因此递归过柠会像这样 进行； 


上拈号 t 变成了 

1. 产牛 ExpPa- (b/c) 的 代码： 

(a) 产生 Expr— b/c 的代码： 

i. 用指令 loadc 产生 Expire 的代码 s 

ii. 用指令 loadb 产生 Exprgb 的代码。 
ul 产生指令 divp 。 

(b) 用指令 load a 产生 Expq — a 的代码 ^ 

(c) 产生指令 subp 。 

2, 产生指令 storep 

整体效果就是产生卜面这样的栈代码 


k = a 


x 




load a 


b/c 


%st(0) 


%3t 山 
%st( 0 ) 


a 


load b 


%st ⑴ 

%3t (CO 


siobp 


益- ( bfr ) 


%9 t [0) 


divp 


scorep x 


%st(D) 


练习鼸 3.25 

产生表达式 x = a*b/c * ， (&b*c) 的钱代码 > 禹 ti! 每一步代码的栈内容，记住要遵守 C 的有关优 

先级和结合性规則， 


当我们想多次使用某些计算结果时，栈求值就变得更加复杂了。例如，考虑这样的表达式 

为了效率，我们想只计算 a*b —次，但是我们的栈指令不提供一种方式将值保存 
在栈中，一旦这个值被用也因此，使用图 3J0 中列出的这样一组指令，我们会需要将中间结釆 a*b 
存储在#储器中某个位置，比如说 t, 每次要使用时就取出这个值，得到 F 面这样的 代码： 


\ 


load c 




%3C(1) 

( 0 ) 


C 


-(a-b) 


load b 


% sc [0} 


c 


& addp 


b 


U 0) 


load a 


3 


load t 


9 


年 st (2) 

%st (1) 

% stt 0) 


■(fl fc ) + ( 


4 st (1) 
^ st {0) 


c 


d if 


ID multp 


n i>- (，(a ■ + c) %s: ( 0 ) 


multp 




%at( 0 ) 


ll storep x 


a -b 


stcrep 二 


6 load t 


%sU0) 


c 


b 


a r 


这种方法的缺点就是增加了额外的存储器访问操作，即使是在寄存器栈有足够的容董存放中间 
结果时 D IA32 浮点单元避免了这种低效率，引入了算术指令的变种，将它们的第二个操作数留在浅 

中，町以用任意栈值作为它们的第二个操作数。另外，它还提供一条指令，可以将栈顶元素与任何 
其他元素进行交换，虽然这些扩展可以用来产生更有效的代码，但是将算术表达式翻译成栈代码的 
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简申.血优美的算法丟失了, 


3,14.3 浮点数据的传送和转换操作 

来引 ；!] 浮点寄存器，这単1代表相对于栈顶的位質 。值丨 的范围为 （） 

%st(u) 是栈项元素，％叫1)是第一个，依此类推，也可以用％^宋引用栈顶元素. q —个新 mf 土入栈 
中时，寄存器％叫7)中的值就£失当从栈屮弹出时， ％st(7) 中的新值是不可预测的。 编汗 器产生 
的代码必须能在寄存器栈有限的容量中工作， 

图 3.3 [铪出的指令集是用来将值压入泞点寄存器栈中的，第一组措令从存储器位置中读，这沿 
参数 Addr 是存储器地址，它按照图3,3中列出的某种存储器操作数格式给出。这些指令是以假定的 
源操作数的格式来IX分的，因此必须认存储器中读出一组字节。回忆下符号 MdAdd 小表示对起 
始地址为 Addr 的 b 个字节的访问 6 在将操作数压入栈中之前，所有这@指令都会将它转换成扩展 
精度格忒。显后的加载指令 fid 用来复制-个栈的值。也就是，它将浮点寄存器％叫1)的个副本压 
入栈中。例如，指令 fld%st<0) 将栈项元素的-个副本祝入栈中。 


奇丫/器 


D 


令 


S 格 A 


源位轚 


单精度 


Addr 


f lcs 


JVUM 圳 
Mg [A ddr] 

M l0 關 rl 

M 4 [Addr] 

i i) 


双精度 


fid; Addr 

fUt Addr 
fildl Addr 


扩展精度 


整数 


扩展稍度 


flo 


3.31 浮点加载指令 


所有的指令将操诈数转换成扩展精度格式.然入寄存器栈中 


图3+32给出了将栈顶元素存储在存储器或另一个浮点寄存器中的指令。“弹出”有两个版本， 
一种赶将桟项元素弹出栈（类似于我们假设的栈求值器中的 stoep 指令)，一种是非弹出版本，将源 
值®在栈顶上。同浮点加载指令一样，指令的不同变种产土的结果格式也不同 * 因而会存储不同数 
H 的 字节。 第一组指令是将结果存到存储器中。地址是用图3_3中列出的存储器操作数格式中的某 
种指定的。第二组指令是将栈顶兀素拷 W 到另外一个浮点寄存器中 D 




指令 


禅出 (Y/N) 


y 标格式 


9标位音 


单賊 


M 4 Addr] 

m ^ ddr ] 

M^[Addr] 

M s [Addr\ 

M ia [Addr] 

M iri lAddr} 

M4 卜拙] 

MjjAddr] 
%st(iJ 


单龍 


双精度 


双精度 


f 展特度 
扩 展稍度 


整数 


整数 


扩 展转度 
扩展特度 




%st ii) 

( i ) 


fstp 


3+32 浮点存储指令 


所冇的指令将结果从扩展精度格式转換成 H 标格式。带耵缀 


的指令将栈顶元素弹出栈。 


p 
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练习埋 3.26 

为下面这段代码做如 t 假设，寄存器 ％eax 包含整数交量 x， 而栈顶两个元素分别对应于变量 
和 b, 在方框中写出每条指令后栈的内容， 


testl % eax,%eax 
jne Lll 


% at ⑴ 

% sr (0) 


fstp %st(0) 




jmp L9 


Lll ： 


fstp %st(1) 


L 9: 


和 b 表示的 C 表达式，描述这段代码序列结束之后，钱顶元素的内容 


写出一个用 


a , a 


最后的浮点数据传送操作允许交换两个浮点寄存器的内容。指令 fxdi % st ( i ) 交换浮点寄存 
器制 1 ( 0 >和 9 ht ( i ) 的内容。不带参数的符号 hch 等价于 fxch % stO ), 也就是，交换两个栈顶元素。 

3.14.4 浮点算术指令 

图 3.33 说明了一些最常见的浮点算术操作。第一组中的指令没有操作数。它们将某些常数数字 
的浮点表示压入栈中。对像兀、 e 和 log 2 10 这样的常数，也有类似的指令。第二组中的指令有 - 个操 
作数。这个操作数总是栈顶的元素，类似于假设的栈求值器中的 neg 操作，它们会用计算出的值取 
代这个元素 & 第三组中的指令有两个操作数。对每个这样的指令，都有关于如何指定操作数的许多 
不同的变种，待会儿会谈到。对不可交换操作，例如减法和除法，有前向（例如 fsiib) 和反向（例 
如 fsubr) 两个版本，这样就可以按照两种顺序中的饪--种来使用 参数。 


令 


计 n 


fidz 

fid] 

fabE 

fchs 

f cos 

f sin 

f sqrt 


Op I 


-Op 


cosOjp 

sinO ^ 

Jop 

Op'+ 0巧 

Op]- Op ： 

Ofh- Op' 

Op \/ Op2 

Opi/Op\ 


fadd 

f &u.t 

f subr 
fdiv 

fdivr 


fitiul 


3.33 浮点算术搡作 


每个 双操作 数操作都有多个变种。 

在图 3 . 3 3中，我们只给出了减法操作 fcub 的一种形式，实际上，这个操作有多个变种，如图 
3.34 昕尔。这些指令都是计算两个操作数之差 ： 0 Pl - Op ” 并将结果存放到某个浮点寄存器中。除 
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了为假设的栈求值器考虑的简单 subp 指令以外， U 32 还有一些指令是从存储器或某个除 ％ s t ⑴以外 
的浮点寄存器中读出它们的第二个操作数的。另外，它们也都有弹出和不弹出这两个变栌 。第- 组 
指令从存储器中读出第_个操作数，这个数可以是争精度、双精度或整数格式的。然后，它冉把这 
个数转换成扩展稍度格式，袼栈顶元素减去这个数，丼覆盖栈项元素。 这 ㈡ 以 看成是•- 个汗点 加载 f 
f 囪跟一个基于栈的减法操作的组合 s 


操作数1 揉作数 2 格式 目的 »[ lJ % st (0)( Y / N ) 

% st ( 0 ) MJAWrl ' 单靖 S fesL ( 0 ) 

%st i 0 ) M R Mdidrj 双項度 

%sr. (01 M^[Addr] 扩 W 梢度 %st{C 

%s ，（ d) M t [Addr] . g 数 

%sr. (0) 稍度 %st (0) 

%st ( i ), %st [1) %SI { C ) ^ st ( i ) 电 1 展稍度 U ) 

%sl (ij , %st (i) %s~ (0) %st [ i} 护 裴稱度 ist(i) 

Ul[i) 雇精度 %st (1) 


Addr 


^ubs 


Aiidr 


iaubl 


(0 j 


Addr 


sdubt 


f isubl Addr 


%st \\J} 


% stIi} r %st 


tbub 


% s : ■■ 1 } 


f sab 


r subp 

tEjubp 


%si i 0) 


3.34 浮点减法指令 

所有的 f 旨令都将结朿以扩 i 稍度格戍存 a 到•个浮 u 奇存器中：带后缀 “ p " 的指令会 弹出栈 顶兀素」 

第二组减法指令以栈顶元素作为一个参数，以另外个栈 7C 素作为另一个参数，但是它们的参 

数顺序、结果所使用的 HK， 以及是否会弹出栈顶兀素都是+ -样的。 注意，汇编代码行 fsubp 
是 fsubp % s :, kt(l) 的简写。这一行对向于我们假设的栈求值器的 subp 指令 D 也就是，它计 
算栈项两兀素之差.将结果存放在 ％st(l) 中，然后弹出％叫0>,这样计算出的值就在栈顶 J\ 

图 3.33 中列出的所有双操作数操作，都有图134中列出的 fsub 的所冇变种。例如，我 fM 以 

IA32 指令写出表达式 x = (a-b)*(-b«) 的代码。为 f 说明方便，我们仍然使用存储器位置的符号 
名字，并假设这些都是双精度值。 


fldl b 


h 


%st(0) 


f chs 


%st(0} 


faddl c 


3 


% st (0) 


fldl 


-6 + c 


% St (0) 


fsufcl b 


%st ⑴ 
%st(0) 


fmulp 


(<j _ iO(_A + r ) 


%st(0) 


f stpl 


W 来看…个例子，考虑表达式 x = ( a * b )+(-( a * b > K ^ 注意是如何用指令 fid kt (0> 在栈中创 
建 a * b 的两个副本的 t 这样避免了在临时#储器位置巾保存这个值， 
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fldl 


a 


% st (0) 


a 


fimil b 


fid %stfO) 


%st (1) 


a 


fchs 


a' b 


%et (0) 


-{ ah 、 


faddl c 


%st (1) 

%st (0J 


a 


— (a • b) -\- c 


6 fmulp 




蘇习題 3.27 

画出下述代码每一步之后栈的 h 容 


fldl b 




fldl 


a 


%st(0) 


£mul %st {l) P %st 


2 


%St (1) 

% st (0) 


fxch 


4 


%st ( I ) 

%£ t (0) 


Edivrl c 


%st (1) 
% st {0) 


Esutorp 


6 


%St fO) 


f sto 


X 


用一个 c 表达式来描迷这个计算 . 

3.14.5 在过程中使用浮点 

同整数参数一样，浮点参数是通过栈传递给调用过程的。每个 float 类型的参数需荽4个字节的 
枝 空间， 而每个 double 类型的参数需要 S 个字节。对于返回值为 float 或 double 类型的函数，结果 
是以扩展精度格式在浮点寄存器栈顶部返回的。 

作为一个示伊 L 看看下面这个函数： 


1 double funct(double a , Eloat x # double b , int i ) 


return d*x - b/i 


相对于 ％ ebp ， 参数 


b 和 i 的位置分别为8、16、 20 和 28: 


x 
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偏栘 


16 


20 


28 


内容 


产生代码的主体，以及得到的栈值如 F 所示 


tildl 20 (%ebpl 


%st f 0 ) 


fdivrl 20 {%ebp) 


2 


% StiO ) 


fids 16 ； %ebp) 


% sti ：0) 


fmuLl S(%ebp) 


%st[l) 
%st [ 0 ) 


fsubp %st,%st(1) 


练习醣 3.28 

对于带参数 

这样的 代码： 


b 和 i ( 以及与 funct 不同的声明）的函数 funct2, 编译器为函數体产生下面 


a, x 




movl 8 (%ebp) , %eax 

fidl 12(%ebp) 

fids 70(%ebp) 
movl %eax,-4(%ebp) 

tildl -4(%ebp) 
fxch (2) 

faddp %st,%st(1 ； 
fdivrp %st,%st (1) 
fldl 

fids 24(%ebp) 
faddo ist , %st (11 


6 


10 


返回值的类型为 double. 写出 fimci2 的 C 代码，注意要保证正确声明参数的类型 t 

3,14.6 测试和比较浮点值 

类似于整数的情况，确定两个浮点数的相对值包括用比较指令来设置条件码，然后冉测试这些 
条件码。不过，对于浮点，条件码是浮点状态字的-部分，浮点状态宇是一个16位寄存器，包含关 
十浮点单元的各种标志。必须将这个状态字转换成整数字，然后测试某些特殊的位。 

如图335 所小， 有很多不同的浮点比较指令。所有这些指令执行的都是操作数之 
间的 比较，这觅0内是栈顶元素.表中每一行说明/两条不同的比较指令： 一 个是有序比较 ，用 
于像<和^这样的 比较； 而另一个是无序比较，用于相等的比较。两种比较的区别只在于它们对待 
to / v 值 3 是不同的，因为值和其他值之间没有相对顺序，例如，如果变 fU 是…个 AWV ， 而交 
量 y 是某个其他值，邳么表迖式都应该产生 I 


3 关此 V 的解释 E2A3 节的木尾。——译者 
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/ S 7 


有 序 


m 弹出元素的个数 


无 


Op ? 


M A [Addr] 单栢度 

M^Addr] 双精度 

扩展精度 
% sUl > 扩 M 精度 

m ^ ddr ] 单精度 

m ^ ddr \ 双精度 

%^ t .： i } 扩展 s 度 

%BtiD 扩 展格度 

% sta ) 扩展精度 


fcon> 


Addr 


fuCOJTli 


Addr 


() 


f cojiiL 


Addr 


fucoml 


Addr 


0 


fcorn 


%st 1 1) 


%&t i : , ) 


fxicom 


%st ! i ) 


0 


f oom 


fucom 


f coitus Adilr 


fucomps Addr 
fucomp 1 Addr 
fucomp %st (i ) 

fucomp 

fucompp 


〔com 卜 Addr 


£ com ^ 


%s^ \i) 


f comp 


fcompp 


3,35 浮点比较指令 


宵序和尤序比较不 R 之处在丁它们对待， M 值是不同的 


比较指令的各种形式的不 冋之处 还在于操作数0&的位 置是不同的， 类似于浮点加载和浮点算 
术指令的各坤形式。最后，各种形式的不同之处还在于，在比较完成后从栈中弹出的元紊的个数。 
表巾所示的第一组指令根本不会改变栈。卽使是对于一个参数在存储器中的情况，最终这个值也不 
会放在栈中，第二组中的操作会将元素办肩出找。而最后一个操作则会将办 i 和办:都弹出栈。 

指令 fnstsw 将浮点状态字传送到…个整数寄存器。这条指令的操作数是图 3.2 中所水的16位寄 
#器标识符巾的一个，例如 ％axt 状态字中，对比较结果编码的位是状态字的高位字节的0、2和6 
位。例如，如果我们电指令 fostw %ax 传送状态字，那么相应的位就在 ％ah 中。选择这些位的典型 
代码序列是这样的： 


ftistsw %ax 

andb $69, %ah 


Store floating point status word in %cuc 
Mask nil but bits 0 P 2, and 6 


2 


注意， 69 1(} 的位表示为 [00100】01] f 也就是，三个相应位上的值均为1。图 3.36 给出了由这段代 
码序列得到的字节 ％ah 吋能的值。注意，对于比较操作数0 ?1 和0 内只 有四种吋能的 结果：第- 个 
数人于、小丁_、等于第二个数，或是两者不能比较，只有当一个值为 AWV 时，才会出现最后一种结 


果 


Ofh ' Opz 


二进制 


十进制 




0 


coimn 


i ] 


[00100000] 

[ omooiot ] 


64 


无序 


69 


3.36 对浮点比较结果的编码 

结果编码在浮点状态宇的高位字节，屏敝了除0、2和6以外的其他位， 


tl 


看看 H 面这个过程示例 


1 


int less(doubie x f double y} 
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return x <: y ； 


这个函数体的编译后代码是这样的 


Push v 

r 

Compare y:x 

Store floating point status word in %ax 

Mask all but bits 0 , 2 , and 6 

Test for comparison outcome ofO {>) 

Copy tow order byte to result , and sei resi to 0 


£ld] 16(%ebp) 

fcompl 8(%ebp) 
fnsLsw %ax 

andb $69,%ah 
sete %al 

novzbl ^al,%eax 


练习題 3.29 

请说明，如何通过在前而的代码序列中插入一行汇编代码，就能实现下面的函教: 

double y) 


i it greaLertdouble 




return x > y; 


现在，我们就讲完 f 用 1 A 32 进行汇编级浮点编程 。 即使是有经验的程序员也会觉得这鵠代码 
很神秘，难以阅读□基于栈的操作，将状态结果从 FPU 读到主处理器的笨拙，以及浮点计算的许多 
细微之处，都使得机器代码冗长向晦涩。值得注意的是，如果数字程序被编码为指定格式，则 Intel 

和它的竞争者们生产的现代处理器就能够使这些数字程序迖到相苎高的性能。 


3.15 *在0程序中嵌入汇编代码 

在早期的计算中，大多数程序都是用汇编代码写的，即使是很大型的操作系统也是在没有岛级 
帮助的情况 K 编写的。就程序的复杂性来说，这就变得难以管理了。因为汇编代码不提供任何 
形式的类型检查，.听以很容易犯基本的错误，例如将指针作为整数来用，而不是间接引用指针。更 
糟的是，用 r 编巧代码会将整个程序限制在某一类机器上了^蓽写一个汇编语言程序，使它能在不 

同的机器上运行，与从尖写整个程序是-样困难的。 

旁注： 用汇编 代码* 写大型程序 

Frederick Brooks , Jr . , 一位计算机系统的先駔，編写了关子 OS /360 开发的说明. OS /360 是 IBM 
机器的一个早期搮作系统15]，直到今天它迷提供了很多重要的经狯.通过写这些东西，他成为了用 
高级语言进行系统编程的衷心拥护者.不过，令人诔奇的是，有一组活跃的租序员，他们很高兴为 
IA 32 写汇編代码，他们通过 Internet 新闻组 compJang . asmx 86 来彼此联系.他和中的大多数为 DOS 

搮作系统编写计算机游戏， 

早期的岛级编程语言的编译器不能产生非常有效的代码，也不能提供系统程序员常常耑要的对 
低级 n 标（代码）表小的访问。要求卨性能或需要访问目标（代码）表小■的稈序通常还是用[编代 
码来写的。不过现在，优化编译器基本上使得性能优化不再是用汇编代码写程序的个原因了。 - 
个高质童的编译器产生的代码通常和手工编写的一样好，甚至于 更好。 而 C 语苫基本上使得机器 i 力 
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问不再使用汇编代码了， C 语 言能够 通过联合和指针运算访问低级数据表氺，以及能对位级数据表 
示进行操作 f 这就为人多数程序员提供了足够多访问机器的能力 。 例如.像 Lmux 这样的现代操怍 
系统，几乎每个部分都是用 C 写的。 

尽管如此，冇时侯用汇编写代码仍然是惟一的选择，特别是实现操作系统时就更足这样。比如 
说，操作系统必须访问一些特殊的寄存器，它们存放着进枵状态信息 f 执行输入和输出操作要使用 
特殊的指令或是访问特殊的存储器位置6即使是对应用程序员来说 ？ Hi 有一 些机器特性，例如条件 
码的值，是不能良接用 C 访问的9 

现在的问题是要将主要由 C 组成的代码与少量汇编代码集成到一起。一种方法是用汇编代码写 
些关键函数，使用的参数传递和寄冇器使用规则与 C 编译器遵守的-样，这些汇编函数保存在独 
立的文件中， 由链接 器将编译好的 C 代码和汇编好 的汇编 代码结合起来 t 例如，如采文件 pl+c 包含 
C 代码，而文件 P2.S 包含的是汇编代码，那么编译命令 


p pl.c p 2 t s 


umx > gcc -o 


会编译文件 P i . c 和 r 编文件 pis ， 并将得到的 h 标代码链接形成 叮执 行程序^ 

3.15.1 基本的内嵌汇编 (inline assembly ) 

gcc 还可以将汇编与 c 代码混合起来。内嵌汇编允许用户直接往编译器产生的代码序列中插入 
汇编代码。可以提供一些特性，以指定指令操作数和向编译器说明汇编指令要1盖哪些寄存器。当 
然，得到的代码是与机器高度相关的，因为不同类型机器的机器指令是不兼容的命令 ( directive ) 
也是与 GCC 相关的，它与很多其他编译器是不兼容的。尽管如此，这还是一种有效的方式，将与 
机器相关的代码数量降低到绝对小。 

内嵌汇编是作为 GCC 信息档案的一部分来说明的，在任何安装 f GCC 的机器上执行命令 info 
会得到一个分 M 的文朽阅读器。沿着名为 “C Extensions ” 的链接，然后是名为 “Extended Asm ” 

的链接，就能找到内嵌汇编的文档。不幸的是，这个文档有点不完全，也不太准确。 

内嵌汇编的基本格式是像过程调用一样写 代码： 


gcc 


1 


asm ( codestring ); 


术语 code-string 表示一个以带括号的字符串形式给出的汇编代码序列。编译器会将这个字符串 
字不差地插入到产生的汇编代码中，因此，编译器提供的汇编和用户提供的汇编就合并到一起 
编译器不会检查字符串是否出错，因此，要等到汇编器才会报告错误。 

我们以-个需要访问条件码的例子來说明 asm 的使用。考虑原型如 的 阑数： 




int ok_smul(int 
int ok_umul(unsigned 


int y r int Meet); 

unsigned y f unsigned *deat) 


x 


每个函数都用来计算参数 x 和 y 的 乘积， 并将结果冇放到参数指定的存储器位置中。至于 
返回值，当乘法溢出时会返回0,否则返 N 1 & 有符号乘和无符号乘是两个函数，因为它们的溢出情 
况是不同的。 

分祈 IA32 乘法指令 mul 和 inrnl 的文档，我们看到在溢出时，两个指令都会设置进位标志 Ch 
查看图 3.10, 我们看到指令 setaf 可以用来 d：CF 标志设为I时，将-个寄存器的低位字节设置为0, 
否则就设置为 K 因此，我们希望将这条指令插入到编译器产生的序列中 & 
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在试图使用尽可能少的汇编代码和详细分析后，我们试着用 K 面的代码来实现 ok_smul: 


code/asm/okmul. c 




1 /* First attempt. Does not ^ork */ 

2 int ok_&mull(int int y, int *desz) 


ir.t r&suU 


4 


■允 ces 匕 = x w y; 

asm (" ^etae %al ,f )； 

return result ； 


code/asm/okmuic 


这¥.的策略利用的是寄存器 ％eax 是用来存放返 M 值的。假设编译器用这个寄存器來#放变暈 
result, 第一行就会将这个寄存器设置为0。内嵌汇编会插入正确设置这个寄存器低位字☆的代码， 
而这个 寄存器 会用来怍力返回值。 

不幸的是， gcc 有它自己的关 r 代码产生的想法。产的代码并不会在函数一开始时就将寄存 

设置为0,而是到最后才这么做，所以函数总是返回0 4 最根本的问题是，编译器无法知道 
程序员的意图是什么，也无法知道汇编语句应该如何与其他产生的代码交 

通过-系列尝试（待会儿我们会详细介绍更加系统的方法)，我们能生成可行的代码，但是这也 
不太理想： 


code / asm/okmuL c 


/* Second attempt . Works in limited contexts V 

int dunrniy = 0; 


ini ok_S[aul2 (int 


int V, int *dest) 


int result ； 


8 


*dest 

result 


dummy; 
asml"setae %al n ) 
return result ; 


10 


11 


一 code/asm/ohnuL c 


这段代码使用的是和前面-样的策略，但是它用金局变童 dummy 的值来将 result 初始化为0 = 
对于 产卞包 含全局变量的代码，编泽器通常会比较保守，所以不太可能会電新排列计貧的顺序。 

前面的代码依赖于编译器能够处理得当。实际上，只有当编译器的优化选项〔命令行选项 A ) 
是打开的时候，这段代码才能正常 .1 作。当不带优化编译时，它会将 resuk 存放在栈中，在返回之 

前取出，覆盖 setae 指令设置的值 Q 编译器无法知道插入的汇编语言4其他代码之间的关系，因为 
我们没有提供给编译器这样的信息。 
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3.15.2 asm 的扩展格式 

GCC 提供了 asm 的一个扩展版本，它允许程序员指定哪些程序值要作为汇编代码序列的操作 
数，以及哪些寄存器要被汇编代码覆盖。有了这些侑息，编译器产生的代码就 能正确 建立所需要的 
源值，执行1编指令，并使用计算出的值。这些信息中还包括编译器所需的关于寄#器使用的信息， 
这样 一来， 重要的程序值就不会被汇编代码指令覆盖了。 

扩展 的汇编 序列的通用语法是这 样的： 


asm( code-string [ : output-list [ : input-list [ : overwriie-lis !]]]); 


这里，方括号表小可选参数 b 这个_明包含一个描述汇编代码序列的字符串，后面是可选的列 
表，包括输出（也就是 r 编代妈产生的结果)、输入（也就是汇编代码的源值)，以及汇编代码会覆 
盖的寄存器。这些列表以胃号（：）分隔。正如方括号表明的那样，我们只包含到最后一个非空的列 


表。 


代码串的语法 LL 人想起 primf 语句屮格式化字符串的语法。它是由一个用分号（“ ：”） 分隔的汇 
编代码指令序列组成的。输入和输出操作数由引用…，％9表示操作数是根据它们第一 
次在输出列表和输入列表巾出现的顺序编号的。像“％阳”这样的寄存器名字必须要多加一个“％” 
?今号，也就是写成 “ 

F 曲是 ok.smul 的一个更好的实现，它使用扩展的汇编语句来告诉编译器汇编语句是为变量 

result 产生的值 r 


cod^/asrn/okmuL c 


Uses extended asm to get reliable code + / 

int 3k_smiil3 (int: x, int v, int *dest ) 


2 


int result ； 


des t 


/* Insert the following assembly code : 
setae %bl 

movzbi %bl，result 


# Set low'order byte 

# Zero extend to be result 


1C 


半 / 


11 


12 


asm(i_setae %%bl; movzbl %%bl f %0^ 

f* Output */ 
f* No inputs V 
Overwrites */ 


13 


: result) 


ii 


n 


二 r 


14 


15 


%ebx 


16 


13 


return result 


19 } 


code/asm/okmu L c 


第一条汇编指令将测试结果保存在单字节寄存器 ％bi 中。然后，第二条指令对这个值进行零扩 
Mt 并拷贝到编译器选择的用来保存 resuh 的随便哪个寄存器中， result 是用操作数％0表示的，输 
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出列表是甴以空格分隔的值对组成的。（在本例屮， 只有 一个值对。）值对的第一个元素是一个字符 
串，表明操作数的类型，这里 “ r ” 表小一 个整数寄冇器，而 
了赋值。值对的第二个元素是用括号括起来的操作数。它可以 是任何 叶陚值的值（在 C 中称为左值， 
lvalue ). 编译器会产生必要的代码序列来执行这个陚值。输入列表有相同的通用格式，这里操作数 
川以是任意 C 表达式 D 编译器会产生必要的代码来对这个表达式求值。覆盖列表只是简单地给出会 
被重写的寄存器的名字（作为带括弓的 T - 符串 h 

尤论编译选项如何，前面这段代码都能常工作 。 正如这个示例表明的那样，要编写允 i 午操作 
数按照荽求的格式书写的汇编代码，可能还需荽点点创造性的思维。例如，没有直接的方法来指 
定一个稈序值作为 setae 指令的 S 的操作数，因为这个操作数必须 是单宁 节的/因此，我们编写 f 

一个基于一个特殊寄存器的代码序列，然 后用个 额外的数据传送指令来将得到的值拷贝到程序状 
S 的某个部分。 


表示汇编代码对这个操作数进行 


练习麵 3.30 

GCC 提供了扩展精度运算的工具。它可以用来实现 ok_smul 函数，优点是函数可以跨机器移植。 
声明为类型 “long long " 的变量的大小为普通 long 变量的两倍。因此，语句 

long long prod = {long long) x * y? 

会计算 x # y 的全 64 位乘积。用这个工具，写出一个不使用任何 asm 语句的 okjmu ] 版本 & 

有人町能会想，这段代码序列可以用在 ok _ U niul 中，但是，对有符号和无符号乘法， GCC 用的 
都是 imul ] (冇符号乘法）指令。虽然它能为两个乘法都产 生卍确 的值，但是它会根据有符号乘法的 
规则来设 t 进位标忐。因此，我们：要使用汇编代码序列，显式地用阁 3.9 中说明的 nuiU 指令来执 
行无符号乘法，这段代码如下所示： 


code/asm/okmui c 


1 /* Uses extended asm + / 

2 int ok_unul(unsigned 


unsigned y, unsigned *dest) 


x 


int res 乙 It; 


产 Insen the following assembly code: 

movl x ? %eax 

mully 

movl %eax,*dest 

setae %dl 


# Get x 

# Unsigned multiply by y 

# Store low-order 4 bytes at dest 
#Sel low-order byte 

movzbl %dl, result # Zero extend to be result 


8 


9 


10 


11 


12 


13 


asmf"movl %2,%%eax; nmll ; movl %%eax,%0 


14 


setae %%dl; movsbl %%dl f %1 
■=r” （ Mest) r 


15 


(result) /* Outputs */ 


ii 


II 


=r 


4 实际 h， 你可以用 GCC 卢明个类型为 char 的变1[束声明一 I s 申^节 操作数，参见 http://www,csapp^cs r cmu.edu/public/ 
byieasmJitml^ - —i 華古 
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I* Inputs 吟 
/* Overwrites V 


16 


) 


(W 


%eax 


17 


%edx 


18 


19 


20 


return result ； 


2： 


code/asm/ohnuic 


回忆下， muU 指令要求它的-个参数在寄存器而第_个参数是作为操作数给 出的。 
为了说明这一点，在 asm 语句中，我们用 niovl 将程序值 x 传送到 ％ eax ， 并指明程序值 y 是 mull 指 
令的参数。然后，指令会将 S 个字节的乘积#放在两个寄存器中， 9 fceax 保存低位4个字节 t 而％6加 
保存髙位字节。然后我们用寄存器办来构造返回值，王如这个示例说明的那样，逗号（，）用来 
在输入和输出列表中分隔操作数对，以及在覆盖列表中分隔寄存器名字。注意，我们能够将 * desl 
指定为第二个 movl 指令的输出，因为它是可陚值的 D 于是，编译器会产生 E 确的机器代码，将％碰 
中的值冇储在这个存储器位 置上。 

想了解编译器是如何产生关于 asm 语句的代码的，下面是为 0 k _ umul 产生的 代码： 


Set up asm inputs 

movl e(%ebp),%ecx 

movl 12(%ebp； f %ebx 

movl 16(%ebp!,%esi 
The following instructions were generated by asm. 

Input registers: %ecxforx f %ebxfory 
Output registers: %ecx for product, %ebx for result 
movl %ecx r %eax ； mull %ebx ； movl %eax,%ecx 
setae %dl; movz:bl %dl f %ebx 
Process asm outputs 

movl %ecx；() 

movl %ebx !%eax 


Loadx into %ecx 
Load y into %ebx 

Load (Ust into %esi 


4 


Store product at dest 

Set result as return value 


这段代码的第 1 〜 3 行取出过程参数，并将它们存放到寄存器中。注意，它没有使用寄存器 
^% edx , 因为我们己经声明了这两个寄存器会被重写。第4行和第5行是我们的内嵌汇编代码，不 
过参数换成了寄存器的名字。特别地，它会用寄存器代替参数％2 ( x ), S % ebx 代替参数％3 
( y )。 乘积会暂时存放在 ％ ecx 中，而它会用寄存器％而 1 代替参 数％1 ( result ). 然后，第6行将乘 
积存储到 dest ， 完成了对参数 ％0( Mest ) 的处理。第7行将腳 ilt 拷贝到寄 存器奴 ax , 作为返回值 5 

因此，编译器不仅产生了我们 asm 语句指示的代码，还产生了提供语句输入（第彳〜3行）和使用 
输出（第6〜7行）的代码。 

虽然 asm 语句的语法有点难懂，而且它的使用也使代码的可移植性变差了，但是对于编写用 

少量汇编代码来访问机器级特性的程序，这条语句还是非常有用的。我们发现，要想代码能正常 

工作，是雋要进行一些尝试和犯点错误的。最好的办法就是用3选项编译选项，然后检査产生出 

的汇编代码，看它是否达到了期望的效杲 & 代码还应该用不同的选项设置来测试，例如带和不带 
-0 选项 t 
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3.16 小结 

在本章中，我们窥视 r 岛级语言提供的抽象 M 下面的东西，以了解机器级编程。通过让 编讦器 
产4机器级 程咩的 汇编代的表；我们了解 f 编译器和它的优化能力，以及机器代码、它的数据类 
型和它的指令集。在第5章中，我们会 看到， 3编写能有效映射到机器上的程序时，了鲜编译器的 
特性会有所帮助。我们还看/一些卨级语言抽象隐藏有关程序操作重要细 W 的例 f 。 例如，浮点 R 
码的行为可能依赖于值是保存在寄存器中，还是在存储器中。在第13 章中， 我们会看到许多这枰的 
例子，我们耑要知道个 秤序变 量是在运行时栈中，是在某个动态分配的数据结构还是在某个 
伞局存储位置中。理解程序是如何映射到机器上的，会让理解这些存储之间的 E 别容易-些。 

汇编语 a 与 c 代码差别很大。在汇编语言程序中，各种数据类型之间的差别很小。程序是以指 
+序 列宋发小的，每条指令都完成一个单独的操作。部分程序状态，如寄存器和运行时栈，对程序 
员来说是直接可见的。仅提供了低级操作来支持数据处理和程序控制。编译器必须用多条指令来产 
生和操作各种数据 结构， 來实现像条件、循环和过稈这样的榨制结构。我们讲述了 C 和如何编译 C 
的许多不4方面。我们看到 C 中缺乏边界检查，使得许多程序容易出现缓冲 K 溢出，而这已经使许 
多系统容易受到入佼者的恶意攻击。 

我们只分析 r C 到 IA 32 的映射，但是我们讲的人多数内容对其他语言和机器组合宋说也是类 
似的。例如，编 ffC ++ 与编译 C 就1卩常相似 & 实际上 t C ++ 的早期实现就只是简单地执行了从 C ++ 
到 C 的源到源的转换，并对结果运行 C 编译器，产生目标代码 fl o + 的对象用结构来表小，类似于 
C 的 struct 。 C ++ 的方法是用指向实现方法的代码的指针来表示的^相比而言， Java 的实现方式完全 
不同。 Java 的口标代码是一种特殊的_进制表小，称为 Java 字节代码。这种代码可以看成是虚拟机 
的机器级程序， IK 如它的名字暗承的那样，这种机器井■^是 S 接用硬件实现的。相反，软件解释器 
处理字节代 E 1 模拟虚拟机的行为 D 这种方法的优点是相同的 Java 字节代码可以在许多不同的机器 
上执行，而我们在本章谈到的机器代码只能在 IA 32 [:运打， 

参考文献说明 

关 TIA 32 最好的参考书 H 宋自于 Imeh 他们关于软件开发的系列中有两本特别有用。基本体 
系结构手册 [18] 给出了从汇编语言程序员角度來看的体系结构概貌，而指令集参考手册[19】给出了各 
种指令的详细插述。这些参考书0包含的信息远远超出了理解 Linux 代码所需要的内容=特别地， 
Linux 使用平面模式寻址，所有分段寻址方法的复杂性都可以小予考虑 

Lima 汇编器使用的 GAS 格式与 Intel 文 tl 屮以及其他编译器(特别是 Microsoft !: 产的编译器) 

使用的标准格式差别很大。-个主要区别就是源和 R 的操作数是以相反的顺序给出的。 

在 Linux 机器 h 运行命令 info as 会显示有关汇编器的信息，其中一个小部分说明了与机器相 
关的信总，包括 GAS 与更标准的 Intel 表(法的比较，注意， GCC 称这些机器为“1386 ”——它产 
生的代码甚至于可以在1985年的机器上 运行， 

Muchnick 的关于编译器设计的著作 [55] 被认为是有关代码优化技术最全面的参考文献。它覆盖 
了我们在此讨论的许多技术，例如寄存器使用规则和基于 do - while 格式为循环产生代码的优点 & 

关于通过 Mmet 用缓冲区溢出来攻击系统， G 经有很多论述了。 Spafford [73] 出版了关？ 1988 
年 Imemet 蠕虫的详细分析，帮助制止这种蠕虫传播的 MIT 的一些人也出版/一些论著 [26], 从那 
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以后，产生多关于制造和预防缓冲 E 溢出攻击的论文和项例如 [20] 

家庭作业 


3.31 


给你如下倍息。•个函数的原型为 


int decoded(int x t int y t int z )； 


将这个函数编译成汇编代码代码体为: 


movl 15 (%ebp) ^ %eax 
movl 12(%ebp),%edx 
sufcl %edx 

movl %eax 

iimjll 3 (%ebp), %edx 
sail S31,%eax 
sari $31, 

xorl %edx f %eax 


4 


参数 X 、 y 和 z 4 放在#储器中相对于寄存器 ％ ebp 中地址偏移量为8、12和16的地方。代码将 
返回值存放在寄存器％£狀中 6 

写出等价于我们汇编代码 ( kcode 2 的 C 代码。可以通过用 - S 选项编译你的代码来测试你的答案。 
你的编译器产生的代码不定完全一样，但是功能应该等价。 


【 I ： 


3.32 


卜面的 C 代码基本 L 与图 3.12 中的代码相同: 


int absdiff2 {int x, int y) 


2 


int result ； 


4 


if (x < v) 

result 


6 


y—x; 


else 


result ; x-y 

return result; 


10 } 


不过编译时，它得到形式不同的汇编代码 


movl 8 (%ebp) , %edx 
movl 12(%ebp),%ecx 
movl %edx f %eax 
subl %ecx f %eax 
cmpl %edx 

jge . L3 

movl %eax 

subJ iedx,%eax 


4 


7 


9 


L3: 
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A . 当 xcy 时，执行哪个减法？与 X # 时呢？ 

B . 这段代码勺前 Ifl 讲过的 if - else 的标准实现有什么+同 

C . 用 C 语法〔包括 goto ), 给出这个翻译的通用形式 3 

D . 为了保 iih 这个翻译具有 C 代码指 定的行为，要对它的使用加上什么样的限制？ 

3.33 ♦命 

卜_面的代码给出了-•个幵关语句中根据枚举类型值进行分支选择的例子。回忆-卜' C 中枚举 
类型只是一种引入-组与整数值相对应的名字的方法，默认情况下，值是从0向上 依次赋 给名字的。 
在我们的代码中，省略了与 各种情 况标号 （case labels ) 相对应的 动作。 




/* Enwitterated type CT&a\es set of constants numbered 0 and upwaid 

typedef enum (MODE—A, MODE_E, MODE_C f MODE—D, MODE_E} mode_t 


int switch3 (int *p 丄 ， irit + p2, rnode_L action) 


int result = 0; 

switch(act ion) 
case MODE A: 


case MODE B: 


case MODE C: 


case NODH D ： 


case MODF ： E ： 


default : 


return result ； 


产生的实现各个动作的汇编代码部分如图 3,37 所示。注释表明了存储在寄#器中的值*以及各 
个跳转 H 的的情况标号。 

A , 程序变董 result 对应于哪个寄存器？ 

B , 填写出 C 代码中缺失的部分。注意会落入其他情况 ( cases ) 的情况 Ceaseh 


The jump targets 

Arguments pi and p2 are in registers %ebx and %ecx. 
,L15; 

movl (%ecx) f %edx 
movl (%ebx) f %eax 
movl %eax,{%ecx) 

iL；l 4 

- p2align 4^,7 

.L 16 : 

movl (%ecx) f feeax 


MODE A 


jnip 


Inserted to optimize cache performance 

MODE B 


3 
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addl {%ebx),%eax 

movl %eax r (%ebx) 
movl %edx 

jmp 丄 14 

,p2align 4, r 7 
,L17 : 

movl $1S r (%ebx) 
movl (%ecx) ? %edx 
jmp -L14 
,p2align 4,,7 


10 


12 


Inserted to optimize cache performance 

MODE C 


13 


14 


15 


16 


1 n 

j . I 


Inserted to optimize cache performance 

MODE D 


18 


19 .LIE: 


^0 


movl ； %ecx),%eax 

movl %eax,(%ebx) 
Ll ?: 

movl Sll r %edx 
jmp ,L14 
,p2align 4, ,7 


21 


22 


MODE E 


23 


24 


25 


Inserted to optimize cache performance 


26 ,L20 ： 


27 


movl 5-1 f %edx 

,L14: 

movl %edx , %eax 


28 


default 

Set refunt value 


29 


3,37 作业 3,33 的汇编代码 




这段代码实现 f swit ^ iS 句的各个分支。 


3.34 ♦♦ 

对于从目标代码进行逆向工枵来说，幵关语句是特别困 难的。 在 F 面这个过程中，去掉了开关 
语句的主体 r 


1 int switch_prob(int x) 


int result 


X ? 


switch (x) l 


/* Fill in code here 


8 


10 


return result 


ii i 

图 138 给出的是这个过程的反汇编 H 标代码。我们只对第4〜16行 所小的 代码部分感兴趣。在 
第4行我们 pJ 以看到参数 x (在相对于 ％ebp 偏移量为8的位置）被加载到寄存器％^;^中，对应于 
程序变量 resulu 第 U 行的指令 lea CxO (%esi) , %esi 是一条空指令，插入这条指令是为 JT 使 
第12行的指令的起始地址为16的倍数 t 
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080483c0 <switch_prob>: 
80483c0: 55 
80483d ： 89 eb 
30483c3 : 8b 45 08 
80483c6 ： 8d 50 ce 
80483c9: 83 fa 05 
80483cc: 77 Id 

80483ce: ff 24 95 68 84 04 08 

80483d5 ： cl eO C2 

&048 述 ： eb 14 

B0433da: 8c be DO 00 00 30 

B0483eD: cl f8 02 

80433e3: eb 09 

80483e5: 3d 04 40 

fi0483e8 ： Of af cO 

B0483eb ： 8^ cO Oa 

80483ee: 89 ec 
80483f0 ： bd 

8048m: c3 
80483f2: 89 f6 


push 


%ebp 

%esp,%ebp 

0x8(%ebp), 

Ox£fffffee(%eax) P %edx 

$0x5,%edx 

80^383eb <switch_prob+0x2b> 

0x8C48463( f %eGX f 4) 

$0x2 f %eax 

80483ee <swiLch_prob+0x2e> 

0x0(?esi),%esi 

$0x2 ^%eax 

804 35ee < ； switch_prob+0x2e> 

{%eax,%eax,2),?eax 

%eax f %eax 
$3xa,%eax 
%ebp ^%esp 

% stop 


2 


mov 


mov 


Lea 


emp 




★ 


]mp 


yhl 


10 


肩 

lea 


*1 *" 


12 




13 


] 啤 

lea 

imul 

add 


14 


15 


16 


17 


mov 


18 


pop 


19 


ret 


20 


%esi, %eai 


mov 


3.38 作业 134 的反汇编代码 

跳转表在另一块存储器 K 域中。用调试器 GDB， 我们可以用命令 X/6W 0x8048468 来检査存储 
器中从地址 0x8048468 丌始的六个4字V】的字， GDB 打印出下面的内容： 

igdb) x/6w 0x8048468 

0x8048468: 0x080433d5 0x080483eb 0x080483d5 OxOBD483eO 

0x8048473: 0xO80483eS 0x080483e8 

■: gdb) 

用 C 代码填写出开关语句的主体，使它的行为与0标代码 一致。 

3.35 ♦争 

C 编译器为 viprcxLele 产1:的代码（图 3.25(b)) 不是最优的。根据过程 fix_prod_efc_opi ( 
3.24) 和 var_p r od_de_opt Cffl 3.25), 写出这个函数的代码，使之对 n 的所有偯都正确，但是编译 
成的代码要将它 的所有 临时数据都放在寄#器中。 

冋忆一下，处理器只有六个寄存器可用来保存临时数据，因为寄存器 ％ebp*%esp 小能用于此 
口的。其中-个寄存器还必须用来保存乘法指令的结果6因此，你必须把循环中的局部变量的数贵 
从六 (result, Aptr、B、nTjPk, n 和 ent) 减少到五。 

3.36 ♦♦ 

如果你负责维护个大型的 C 程序，遇到下面这样的 代码： 

1 typedef struct { 

2 int left ? 

3 a_struct a[CNT]; 
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int right ； 

} b_strucL ； 


7 void tesL(inL i f b_atruct *bp 


int n = + bp->right 

truct *ap - &bp->a[il; 
ap->x[ap->idx] 


10 


11 


n ; 


12 } 

+幸的是，你对定义编译时常数 CNT 和结构 a_smi C l 的 “.h” 文件没有访问权限。幸好，你能 
够访问代码的 '0” 皈本，可以用 objdump 程序來反汇编这些文件，得到如图 3.39 所示的反汇编代 


码。 


1 00000000 <tesL>: 


0 


push 


%ebp 

%ebp 

宅 ebx 

Cx8(%ebp),%eax 
CxcC%ebp),%ecx 
(%eax,%eax,4),%eax 

0x4(%ecx,%eax,4) 

(%eax) ； %ed^ 

$0x2 f %edx 

0xb8(%ecx),%ebx 

(%ecx), iebx 

%ebx,0x4(%edx,%eax,1) 

iebx 

%ebp；%esp 

%ebp 


b 5 


39 e5 


mov 


push 


53 


5 4 


8b 45 08 
8b 4d 0c 

8d 04 80 
3d 44 81 04 
Sb 1C 

cl e2 02 

8b 9S b3 00 00 00 
03 IS 

89 be 02 04 


mov 


mov 

lea 

lea 


a 


3 




mov 


丄 0 13 


shl 


11 16 


mov 


12 lc 

13 le 

14 22 


add 


mov 


5b 


pop 


89 ec 


mov 


16 25 

17 26 


5 d 


pop 


c3 


ret 


3,39 怍业 3,36 的反汇编代码 


运用你的逆向工程技能，推断出 卜列内容： 

A+CNT 的值。 

B. 结构 a^truct 的完整声明 4 假设这个结构中只有域 idx 和 

3.37 ♦ 

编写一个函数 good.ccho ,它从标准输入读入一行，冉写回到标准输出。你的实现必领对仟意 
長度的输入行都能正常 上作， 可以使用库函数 fgets， 但是必须保证 T 你的函数即使是在输入行需要 
比你为缓冲区分配的空间更大的空 间时， 仍能汜确1：作。你的代码还应该检査出错条件，当遇到错 
误时返回。关于标准 I/O 函数的定义 M 以参考文档 [32, 40U 

3.38 ♦♦參 

在这个问题中，你要着手对你自己的程序进行缓冲区溢出攻击。 f 面我们说过，我们不能原谅 


X 
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用这种或其他形式的攻击来获得对系统的未被授权的 i 方问，但是通过这个练习，你会 学到许 多关于 
机器级编程的知识。 

从 CS : APP 的网站 U 载文件 bufbomb . c , 编译它创建一个4执行文件。在 bufbomb,c + t 你会 
发现下面的函数： 


1 int getbuf() 


char buf[12 ]； 

getxs(buf }； 
return 1; 


8 void test (] 


int val; 

printf( u Type Hex string:"); 
val - getbuf ()； 

13 printf("getbuf returned 0x%x\n "； val )； 

14 ) 


10 


12 


函数 getxs (也在 bufbomb . c 中）类似丁库函数 gets ， 除了它是以十六进制数字対的编码方式读 
入字符的以外。比如说 t 要给它…个字符串 “0123”，用户应该输入字符串 “30 31 32 33"。这个函 
数会忽略空格7符。冋忆卜 _ ,十进制数字^的 ASCII 表示为 0 x 3^ 

这个枵序的典型执行是这样的： 


unix> Jbufbomb 

Type Hex string ： 30 31 32 33 
getbuf returned Oxl 


看看 gethuf 函数的代码，看上去 似乎很 明显，尤论何时被调用，它都会返回值1。看上去就奸 

像调用 getxs 没有产生效果一样。你的任务是，只简单地对提小符输入一个适3的十六进制字符串， 
就使 getbuf 对 test 返回 -559038737 ( Oxdeadbeef ), 

F 面这些建议 pJ 能会帮助你解决这个问题： 

用 OBJDUMP 创建 bufbomb 的一个反汇编版本。仔细研究，确定 getbuf 的栈帧是如何组织 
的，以及溢出的缓冲区会如何改变保存的程序状态。 

在 GDB 下运行你的程序。在 gertnif 中设置 个 断点，并运行到该断点。确定像 ％ ebp 的值 
这样的参数，以及己保存的当缓冲区溢出时会被覆盖的所有状态的值。 

手 ]: 确定指令序列的字节编码是很枯燥的，而且容易出错。可以用工具來完成这些工作， 

写一个汇编代码文件，包含想要放入栈中的指令和数据。用 GCC 汇编这个文件，冉用 
OBJDUMP 反汇编它，就吋以获得要在提示符处输入的字节序列了。当 OBJDUMP 试图反 

汇编你文件中的数据时，它会产生一些看上去非常奇怪的指令，但是十六进制字节序列应 
该是正确的。 

要记住，你的攻 S 是非常依赖于机器和编译器的。当运行在不同的机器匕或使用不同版本 GCC 
时，可能需要改变你的字符串。 
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3.39 ♦♦ 

用 asm 语句来实现一个只有如 K 原型的函数 


void 丄 —unnil [unsigned 


unsigned y f unsigned dest [])； 


x 


这个函数要计算它的参数的全 64 位乘积，并将结果存储到 H 的数组中， dest [0] 存放低位4个字 
节，而 destH ] 存放高位4个宇节。 

3.40 ♦♦ 

fscale 指令计算浮点值 x 和 y 的函数 jc .2 
数，将庀数向下舍入，而将负数向上舍入。 fscak 的参数来 A 于浮点寄存器栈， 欠在％叫 0) 中，而 ¥ 
在％叫 1) 中。它将汁算出来的值丐入 ％ st (0), 不弹出第二个参数。（这个指令的实际实现就是将 RTZ(y) 
加到 x 的指数。） 

用 asm 实现一个函数，它的原型为 


这甲 1 RTZ 表示向0舍入 （ round - toward - zero ) 函 


RTZ^ 


t 


int n ； double *desL )； 


double ycaleidouble 


x 


f 


它用 fscale 指令来计算 x 2 n ， 并将结果保存到由指针 dest 指定的位置。扩展的 asm 对 IA 32 釋 
点的支持不是很好。不过，在这种情况中，你可以从程序栈中访问参数。 


练习题答案 

练习颟 3/1 答案 

这个练 > j 使你熟悉各种操作数格式 


換作数 


注釋 


%edx 


Oxm 


寄存器 

绝对地 W 

立即数 


0x104 


0XAB 


$cxioa 


oxioe 


(^ eax ) 


OXFF 


地址 OxlOQ 
地址 0x104 

地址 OkIOC 
地址 0x108 

地址 0x100 
地址 OxIOC 


4 f%eax) 


UXAB 


S (%eax,%edx} 


Oxll 


260 ($ecx H %edx) 


0x13 


0XFC(,%ecx,4} 


OkFF 


(%eax,%ed^ F 4) 


Cxll 


练习题 3.2 答案 

逆向工程 是-种 理解系统的好方法。囚此，我们想要逆转 c 编译器的效果，来确定什么样的 c 
代码会得到这样的汇编代码6最好的方法是进行"模拟' 开始时，值 X 、 y 和 Z 本别在指针 xp 
和印指定的位置 4 于是，我们可以得到下面这样的 效果： 


yp 


movl 8(%eop) f %edi 

movl 12(%ebp),%ebx yp 
movl 16(%ebp),%esi 




zp 
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ir：ovl (%edi) , %eax 
movl {%ebx) P %edx 

movl (%esi) f %ecx 
movl %eax ； (%ebx} 

movl %edx f (%esi) 
movl %ecx f (%edi) 


x 


h 


T 


6 


*yp -x 
= y 

*xp = z 


由此我们可以产生卜而这样的 c 代码 


code/asm/decode I-ans. c 


1 void decodel(int *xp P int *yp, int *zp) 


irtL tx 

inL ty 
int Lz 


3 


xp; 


yp; 


zp; 


yp - tx ； 

sp ^ ty; 

xp - tz; 


10 ) 


- code / asfn/decodel ^ ans . c 


练习题 3.3 答案 

这个练习说明了 leal 指令的多样性， N 时也 lh 你练习解读各种澡作数形式。注意，虽然在图13 
中有的操作数格式被划分为“存储器”类型，但是并没有访存发生， 


表达式 


结果 


lea] 6 f%eax) , 




leal (%e^x %ecx ),%edx 




lGdl (%eax %ecx H 4 ) f %edx 


jt+4> 


leal 7 (%eax %eax f @ f 


7+9) 


leal r QxA (, %ecx, 4 ) , %edx 




leaJ 7 (%eax %ecx,2 ) , %edx 


9+j+2v 


练习题 3.4 答案 

这个练习使你有机会检验你对操作数和算术指令的理解 5 


令 


目的 


addl % ecx P [% eax ) 


CxlOG 


0x100 


subl 4 I%eazx) 


0x104 


0xA8 


imiill feax, iedx T 4 j 


OxlOC 


0x110 


incl 8 {eaxj 


0x103 


CxI4 


dec! %ecx 


%ecx 


CxO 


subl %edx, 


%eax 


CxFD 
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练习题 3.5 答案 

这个练 >] 使你有机会卞:成一点汇编代码。答案的代码是由 GCC 生成的。将参数 n 加载到寄存 
器％^\中，它可以用字节寄存器 ％cl 来指定 sar] 指令的移位景。 


12 (%ebp) , %ecx Get n 

mov 丄 8 (%ebp) , %eax Get x 

sa ] 1 f %eax x <<= 2 

gar] %cl f %eax 


movi 


4 


x »= n 


练习捶 3.6 答案 

这个指令用来将寄存器％以\设置为 0, 运用了对任意 


0这一 属性。 它对应于 C 语句 


A 


Xf X ^ X = 


这是汇编语苫习惯用法的 个 示例，习惯用法就是常常用来完成特殊目的-段代码。认识这些 
习惯用法_是成为阅读汇编代码能手的第一步9 


练习题 3.7 答案 

这个例子要求你思考不同的比较和 set 指令。要注意的主要问题是，如果将比较指令一边的值 
强制类型转换成 r iKisigned， 那么由于隐式的强制类型转换，比较指令的执行就好像两边都是无符 
号数-样。 


char ctest(int a, int b, int c) 


char l 1 
char t2 

char 

char :4 
char t5 


b; 


a < 

b < 


4 


(unsigned) a ； 
(short) a; 

(char) c; 


(short) 

(char I 


5 


c >= 


b ； 


c > 


char t6 


0; 


a > 


return tl 


t2 f t3 


t4 + t5 + t6; 


十 


+ 


10 


练习理 3.8 答案 

这个练习要求你仔细检查反汇编代码，并推理出跳转 H 标的 编码。 它还使你练习了十六进制 算术。 
AJbe 指令的 R 标为 0x8048d】c + Oxda。 如原始反汇编代码所示，这就是 0x8048cf8 ^ 

8048cf8 
S048d44 

B. 根据反汇编器产屯的注释， St 转 A 标是在绝对地址 0x8048d44。 根据字节编码，这必须是在超 
过 mov 指令地址 0x54 字节地址的地方，减 iOxM 就得到 0x8048cf0, 反汇编代码也证实了这 一点： 

80 姻 44 

$0x10,Oxfffffff 8 (%ebp) 

C H 标是在相对 T 0x8048907 (nop 指令的地址）偏移量为 OOOOOOcb 的地方。对它们求和就得 
到地址 0x80489d2 fl 


8048dlc ： 76 da 
3048dle ： eb 24 


jbe 

jmp 


8048cee ； eb 54 
8048cf0: c7 45 f8 10 00 


Jirip 


mov 
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8048902 ； e9 cb 00 00 00 
8048907 ： 90 


80489d2 




nop 


D . 间接跳转是用指令代码 ff 25 表小 的。 将要被读出的跳转目标的地址是由下询4个卞节明确 
编码的。因为机器是小端法的，所以以反向顺序给出就是 e 0 a 20408。 


S0483f0 ： ff 2b eO a2 04 
B0483f5: 08 


0x8O4a2eC 


]mp 


练习题 3.9 答案 

对汇编代码写注释，以及模仿它的榨制流来编写 C 代码，是理解汇编语言枵序很好的手段。本 
题使你能够练习-■'个具有简申控制流的小 例。 它还给你了一个检查逻辑操作实现的机会。 


A . 


code/asmhimpie-ifc 


void coridt int a r int *p) 


it (p =; C_) 

goto done ； 

if (a 

goto done; 


4 


0) 


< = 


P 


a; 


done : 


code/asm/simple- if, c 


B . 第一个条件分支是 II 表达式实现的 部 分。如果对 p 为非苧的测试失败，代码会 跳过对 a >0 


酬试 


练习题 3.10 答案 

编译循环产牛.的代码忖能会难以分析，因为编译器会对循环代码进行很多不同的优化，还因为 
程序变景与寄存器的匹配非常困难。我们从非常简单的循环 Jf 始练习这种技能。 

Ai 只要看看是如何取出参数的，就能确定寄存器的使用。 

寄存器甩法 | 


寄存器 


变 t 


初始 


%esi 


%ebx 


y 


Y 


%ecx 


B . body - statement 部分是由 C 代码中的第 4 〜 6 行和汇编代码中的第6〜8行组成的。 test-expr 
部分是 C 代码中的第7行。在汇编代码中，它是由第9〜14行的指令以及第15行的分支条件纟 fl 成 


的 0 


a 加了注释的代码是这样的 


InitiaUy x y P ar\d n ore at offsets fl, 12, and 16 from %ehp 
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movl 8( %ebp) , %esi Put x in %esi 

ir\ovl 12 (%ebp) , %ebx Pui y in %ehj 
movl 16 (%ebp) , iecx Putn in %ecx 

- pSalign 4, P 7 


loop 


L6 : 


imull %ecx,%ebx 
addl %ecx ,tesi 

decl %ecx 
te^tl %ecx 

setg %al 

r:mpl %9.cy. f %ebx 

setl %dl 
andl %edx f % eax 
testb $1 P %a.l 

jne . L6 


=n 


y 


x n 


n- - 


Test n 

n >0 

Compare y:n 

\ <n 

r 

in>0)& (y < n) 

Test least significant hit 
If != 0, goto loop 


10 


11 


12 


n 


u 


IS 


注意，测试表达式的实现有点奇怪。很明显，编译器认出两个判定 U >0) 和 （ y < n ) 只可能 
取值0或 h 因此分支条忭只需测试它们 AND 的最低字节。编译器还可以更聪明一点，用 tesib 指 
令来执行 AND 操作。 


练习瓶 3.11 答案 

这个问题提供了另外一种机会来练习解读循环代码。 C 编译器做了一些有趣的优化。 

A . 看眉参数是如何取出的，以及寄存器是如何初始化的，就能确定寄存器的使用。 


寄存器用法 


害存器 


蛮1 


初姶 


%eax 


%ebx 


b 


b 


%ecx 


0 


%edx 


result 


B , test - e ^ pr 出现在 C 代码的第 5 行,汇编代码的第 10 行，以及第 U 行的跳转条件, body - 似 temem 

出现在 C 代码的第6〜8行，汇编代码的第7〜9行，编评器发现 while 循环的初始测试总是为真的， 
因为 i 被初始化为0,很明显小于256。 

C . 加/注释的代码是这样的： 


movl 8 (%ebp) f %eax 

12(%ebp) r %efcx 
xorl %ecx ,iecx 
mov'i %eax, %edx 


Put a in %eax 

Put b in %ebx 


mov 


i = 0 


result = a 
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*p2align 4 ； P 7 

a in %eax Y h in %ebx，i in %ecx ¥ result in %edx 

loop: 


h 


6 


Lb : 


result += a 


addl %eax,%edx 

subl %ebx f 

addl %ebx,%ecx 

cmpl $ 25 S^%ecx 


i += b 

Compare i:255 

if <- goto loop 

Set result as return value 


10 


11 


12 


movl %edx,%eax 


D , 等价的 goto 代码是: 


irtL loop_whi le_go^o(.inL 


int b) 


a 


mL i 


inL result 


a 




5 loop : 


result 


b 


b; 


if (i <= 255) 
go:o loop ； 
return result; 


ID 


11 


12 ) 


练习題 3.12 答案 

1 中分析汇编代码的方法是试着逆转编译过程，1■:成讨 C 程序员宋说看起来比较 “卩1 然的” C 
代码。例如，我们不想使用 goto 语句， 闶为 它在 C 屮很少使用 3 很有叶能我们也不使用 do^while 
语句。这个练习迫使你将编译逆转成某和框架，它要求思芩 for 循环的翻译，它还展 i 种称为 
代码移动 （code motion ) 的优化技木，也就是与可以确定计算结果在循环中不会改变时，将计筧从 

循环中拿出来。 

A . 我们可以看出 result 必须在寄存器 ％ eax 中 D 初始化时它被置为0,循环结束时留在 ％eax 
中作为返回值。我们可以看到彳保存在寄#器资以大屮，因为这个寄存器是作为两个条件测试的基 


础的。 


B . 第 2-4 行的指令将 ％ edx 设置成 n -] 。 

C 第5行和第12行的测试要求 i 非负。 

D . 变景 i 被指令 4 减小。 

E . 指令1、6和7使得 x * y 存储在寄存器％找\中 
F 下面是晾始代码： 
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int loop(int 


y, ini n) 


x 


1 


mt rey jI t 


int l 


0; i = i-x)( 


for (i 


丄 >二 




return result; 


练习题 3,13 答案 

g 个练习 H 尔能够推算出幵关语句的控制流。回答这些问题要求你将汇编代码中的多处佶息综 


起來: 


1+ I 编代码的第2行将\加上2,以将情况 ( cases ) 的下界 设置成 ( h 这就意味着最小的情况 
号 （case lable ) 为 -2 。 

2. 亡调整过的情况值大于6时，第3行和第4彳丁会导致程序跳转到畎认情况。这就意味着媸大 
情况标号为 "2+6=4 □ 

3+在跳转表中，我们看到第二个表(情况标号 -1) 的 n 的 （110) 弓第4行的跳转指令的 
的一样，表明这是默认情况彳7为。因此，在开关语句体屮缺失了情况标号 -h 

4,在跳转表中，我们看到第5和第6个表项的 R 的一样。这对应于情况标号2和3。 

从 t 述推理，我们得到两个 结论： 

A, 开犮语句体中的情况标号值为-2、0、1、2、3和 L 

卩标为18的情况标号为2和3。 


练习题 3.14 答案 

这乂是一个汇编代码的习惯用法。刚开始，它看起来非常奇怪—— call 指令没有与之匹配的 m。 
然后我们就意识到它根本就不是_ •个 真正的过程调用。 

A. %ea \ 被设置成 popl 指令的地址。 

B 这个是一个真正的+过枵调用，因为控制是按照与指令相同的顺序进行的，而返回值是从栈 


中弹出的 


C 这是 IA32 中将程序计数器的值放到整数寄#器中的惟一方法。 


练习題3,15答案 

这个练习使得对寄存器使用规则的 W 论 ft 体化。寄存器 ％edi 、 是被调用者保存的 t 
在改变它们的值之前，过程必须将它们保存迮栈中，在返回之前，要恢复它们。 其他二 个寄存器是 
调用者保存的，改变它们不会影响调用者的行为， 


练习题3,16答案 

能够推断函数是如何使用栈的，是理解编译器产生的代码的关键的一部分，正如这个例子说明 
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的那编译器分配 r 大量根本不会使用的空间， 

A. 开始时， %esp 的值为 Ox8_(K 第2打将这个值减了 4,得到 0x8OOO3C ,这就成为 j"%ebp 


的新值。 


B. 我们吋以看到两个] eal 措令是如何计算要传给 scanf 的参数的。因为参数要以相反的顺序 K 
入栈中，我^河以看到 x 位于相对于 ％ebp 偏移景为 -4 的地方，而 y 在偏移量为_8的地方。因此它 

们的地址是 0x800038 和 0x800034, 

C 栈指针的初始值为0x800040,第2行将它减 f 4。第4行将它减了 24,而第5行将它减 f 4。 
二个入栈指令将它减 H2, 总共减小了 44。因此，在第〗0行后， ％esp 等于0x800014。 


D. 栈帧的结构和内容如下 


0x800060 4 — 


OkSDOC^C 


0x5j 


0x300018 


0x46 


0>-800034 


0洲0030 


OX0COO3C 


OiSDOOiB 


0x600024 


0x^00020 


0x800038 


OwnoGic 


OxSO0O34 




0x3000 7 0 N — 


OxSODOU 


E- 0x800020 〜 0x800033 的字节地址没有使 ffl 。 


练习題3,17答案 

这个练习测试你对数据人小和数组索引的理解。注意，任何类型的指针都是4个字节 long 

double 的 GCC 实现 ffl 了 12个字行来存储每个值，即使实际格式只需要10个字节。 


数组 


元索大小 


起始地址 


元索； 


总大小 


+2i 


5 


28 




T 


4 


12 


x n +4( 


〆■! 


U 


24 


x L +4i 


4 


12 


+ 12 ! 


v 


96 


w 


4 


16 


Xh+ 4 j 




练习题 3.18 答案 

这个练习是关=整数数组 E 的练4的一个变形。理解指计弓指针指向的对象之间的 lx 别是很重 
要的。因为数据类型 short 需要2个字 I所以所有的数组索引都将乘以因子2。前面我们用的 


a 
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movh 现在用的则是 movw 


表达式 


类型 


i [* 语句 


n 


+ -2 lea'. 2 , %e^x 


sy.oi r. 


叩」 


M[x s +^] movw 6{^edx； f %ax 


& 匕 or 


iS[i： 


short 


Xq +2i leal (%edx, %ecx,2 } ,%eax 


M[x s +8rf2] 


□[4*i+l1 short 


2 (%edx, %ecx,9), 


mow 


+2i 10 leal -10{%edx,%ecx P 2) 


l-S 


short 


练习题 3.19 答案 

这个练习要求你完成缩放指令，来确定地址的计算，并且应用行优先索引的公式。第步是注 
释汇編代码，来确定如何计算地址 引用： 


Geti 

Getj 


movl 8 (%ebp),%ecx 
movl 12 (%ebp 丨， %eax 
leal Oh %eax,4) f %ebx 
leal 0(,%ecx,£),%edx 
subl %ecx,%edx 
addl %ebx f %eax 
sail $ 2 . %eax 

movl mat2(feeax,%ecx,4) r %eax 

addl 41 , %巳 ax 


4*j 


sn 


7 ^i 


20，j 


mat 2 [( 20 *j + 4 *i}/ 4 ] 

4 - matl {(4 + 28 气 )/4 f 


由此我们可以肴出，对矩阵 matl 的引用是在字节偏移 4(7i+j) 的地方，而对矩阵 mat2 的引用是 
在字节偏移 4(5j+i) 的地方。由此我们可以确定 rrntl 有7列，而 imt2 有5列，得到 M=5 和 N=7 

练习题 3.20 答案 

这个练习要求你研究I编代码，理解是如何优化它的。对提高程序性能来说，这是一项很重要 
的技能 6 通过调锒你的源代码，你可以影响产生的机器代码的效率。 

K 面是该 C 代码的一个优化过的版本： 


O 


/ + Set al ] diagonal ekments to val */ 

void fi^_set_diag_opt(fix_matrix A, int val) 


1 


int *Aptr : &A[0][0 ： + 255; 
ini cut 

do { 




N-l 


Vi 


*ApLr = val ； 
Aptr (W+l) 


nt-- 
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10 


} while (cit 


0 ); 




11 } 


通过卜面的注释可以看出它与汇编代码的关系 


Get val 


movl 12 (%ebp),%edx 
m^vl 3(%ebp),%eax 

movl S15,%ecx 
a.idl $1020, %eax 

.p2align 4,；7 


Get A 


2 


i ^ 0 


Aptr^ &A10][0] + ； 020/4 


loop: 


L5C 1 : 

movl %edx, (feeax) 

addl $-68 ,%eax 

decl %ecx 

」ns .L5C 


*Aptr = val 

Aptr - 68/4 


9 


j- 


10 


ifi >- 0 goto bop 


请注意汇编代码是如何从数组结尾处开始并反 M 工作的 4 它将指针减 i 68 (=17 4)，因为数组 
元素和 A [ i ] ⑴之间隔着 N +1 个元素。 


练习题 3.21 答案 

这个练习让你思考结构布局，以及用来访问结构的域的代码，晐结构声明是文中所小例 f 的 ' 
个变形。它表明嵌套的结构的分配是将内 I 结构嵌入到外层结构之屮的。 

A 结构的布局图是这 样的： 


偏 6 


4 


12 


内容 


P 


s ,x 


nexc 


b-V 


B . 它使用了 16 个字汀。 
c 同平时…样，我们从给汇编代码加注释开始: 


rrovl 8 (%ebp) , %eax 

movl 3( %eax ) f %edx 
movl %edx,4(%ea^) 

1eal 4(%eax),%edx 
movl %edx,(%ea^t 
movl %eax,12(%eax) 


Get sp 
Getsp->s.y 


1 


Copy to sp->s.x 


4 


Get & (sp->s,x) 

Copy to sp->p 
sp->next = p 


由此，我们 W 以产生如卜 C 代码: 


void sp_init(struct prob *^p) 


+ x 


sp -> s - y ； 

& (sp->s,x ); 


sp->p 
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sp->nexL 


sp ； 


练习题 3.22 答案 

这是一个很棘手的问题。它将对以猜谜技术作为逆向工程的一部分的需求提升到 f • 个新高度。 
它清晰地 表明， 联合是一种将多个名字〔和类型）与单个存储位置联系到一起的简单方法。 

A. 联合的布局如 h 面所小 。正如这张表说明的那样，这个联合既町以解释为 ~1” （有域 cl，p 
和 el+y), 也可以解释为（有域 e2j 和 e2mext )。 


偏移 


0 


4 


内容 


el .p 


el T y 


e2 . x 


e2.next 


b , 它使用了 8 个字竹。 

c . F ] 平时 - 样，我们从给汇编代码加注释开始。在我们的注释中，对有些指令，我们给出了多 
个 nj 能的解释，间时还指出后 a 会丢弃 哪一种解释。例如，第2行既可以解释成获取元素 el + yi 也 
nj 以解释成获取元素在第3行，我们看到是用间接存储器引用的方式来使用这个值的，所 
以只可能是第_种解释了 = 


mov 1 8( %ebp) , % eax Get up 

movi 4 (%eax) p %edx up->eLy (no} or up->e2,next 
movl (%edx) , %ecx up->e2.next->eLp or up->e2,next->e2, x (no) 

movl (%eax) P %eax up->eLp (no\ or up->e2,x 

ir^ovl (%ecx) f %ecx *{up->e2Mext->eLp} 

*(up->e2,nexi->eLp) - up->e2 + x 
movl %ecx, 4 (%edx) Store in up->e2 v next->€Ly 


2 


subL p %ecx 


山此，我们 rJ 以产生如 Fc 代码: 


void proc (union ele *up) 


up->e2,nexL->el,y 


* 


(up->e2.next->el,p) - up->e2 .x; 




练习题 3.23 答案 

对理解各种数据结构耑要多少存储，以及对理解编译器为访问这些结构产生的代码来说，瑝解 
站构布周和对齐是非常重要的。这个练 >ju: 你看清楚一些示例结构的细节， 


A, strict PI { int. i ; char c; char d; int j; }; 
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B . struct P2 { int i; char 


char d ； int j ；)； 


c 


6 共 


对齐 


d 


c 


12 


0 


4 


4 


C, struct P3 { short w；3 ] ； char c [3 ] }; 


对齐 


总 A 


w 


c 


0 


10 


D . struct P4 { short w'3] : char + c [ 3] }; 


总 M- 




w 


c 


0 


20 


4 


R struct P3 { struct Pi a [21 ; struct P2 *P }; 


总共 


对齐 


a 


P 


0 


32 


36 


4 


练习题 3,24 答案 

这个问题覆盖的话题比较广泛，例如栈帧、字符串表示、 ASCII 码和宇节顺序。它说明/越界 
存储器引用的危险性，以及缓冲 S 溢出背后的基本思想。 

A . 第7行时的栈， 


oe 04 86 


iS 回地址 


bf ff fc y4 


保存的 ％ebp M — %ebp 


bu ： [4-71 




00 00 00 01 


保存的 %esi 
保存 ft %ebx 


UO 00 00 02 


b , 第 io 行后的栈（只给出 ni 改过的字)■: 


oy 04 36 0C 


返 M 地址 


30 ^3 35 


保存的 %ebp 4— ^ebp 
bu ： [4-7 ； 


37 W 35 34 


n 12 31 : iQ 


buf[0-3 ] 


C . 这个程序试图返 M 到地址 0 x 08048600, 低位字节被结尾的空 ( null ) T 符覆盖了 


程序的机器级表示 


213 


D , 保存的寄存器 ％ebp 的值变成了 0 x 31303931 会在 getKne 返回之訊，将这个俏加载到寄存 
器中。保存的其他寄存器+受影响，因为它们保存在栈中比 buf 更低的地址匕。 

E . 对 malloc 的调用应该以 stil en ( bufHl 作为它的参数，闹 F 1 还应该检食返回值造否为非空。 


练习题 3.25 答案 

这个练习使你冇机会试试3+14,2节中描述的递归过程。 


load c 


lst [ d ) 


c 


load b 


%st (1) 

( 0 } 


h 


multp 


3 


%st (0) 


losd a 


( 1 ) 
(0 \ 


a 


adcp 


5 


%st (0} 


nec 


%st (0) 


load c 


7 


-{a + i? ■ c) 


%sc (1) 

%&t (0) 


€ 


1 osd b 


ft 


— (u + U 


%st 12) 
%st (1 ) 
%st (0) 


b 


load 


a 


-(a + ft ， l.) 


%st(3) 
% st (2) 

%st (1) 
%st (0) 


a 


10 multp 


-(a 十 h ■ r) 


%st(2) 

%st (1 ] 

%st (0) 


c 




divp 


11 


a ■ b/c 


%st (1) 
%st (0) 


12 mulLp 


■ h/c 、 一 (a + b ' c) 


% st {0) 


a 


:3 


storep x 


练习题 3.26 答案 

卜 M 这段代码与编译器为基于 个 测试结果从两个值中进行选择产生的代码相似 


test %e£x,%eax 
jne Lll 


%st11} 


f3tp tEt(0} 


% St ⑼ 
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r,9 




U l : 


sup %st \1) 




得到的栈 1 值是 x ? a:b 


练习题 3.27 答案 

由 t 它的尤丁弹出操作数的规则，以及参数的顺序等等，浮点代码非常难处理。这个练 > j 使你 
有机会 突整 地完成一些特殊情况= 


fldl b 


%st (0) 


fldl 占 


2 


b 


%Et{0) 


a 


fmul (1), ;st 


b 


%st [1) 
%st[0) 


h 


a 


ixch 


a - h 


%& t ⑴ 
%st(0) 


Mivrl 


c 


n - h 


%st (1) 
%st (0) 


c/b 


fsubrp 


6 


%st(0) 


f sLp 


这段代码计算的是表込式 x = a * b - c / b . 


练习题 3.28 答案 

这个练习耍求你考 tgif 点代码中的各种操作数的类型和人小 & 


^- code/asm/fpfnnct2 -an s, c 


1 doubio fiinct 2 ( 丄 nc 


double 


float b r floctt i ) 


a 


x 


a/(x+b) 


return 


U + l ); 




code/asm/fpfunc t2-ans. c 


练习题 3.29 答案 

A 第 4 行和第 5 行之 间插入卜列代码: 


cmpb $ 1 , %ah Ten if comparison outcome is < 


练习题 3.30 答案 




int ok^iruj 1 ( 丄 nt 


inr. T dest) 


int 


x 


y ^ 
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long long prod = (long long) 

(irit) prod; 


x 


y; 


i rit trunc 




dest 


11 unc ； 




prod); 


return (trunc 
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块手指甲人小的硅片匕可以 
容纳一个完整的高件能处理器和人的高速缓存，以及用来连接外部设备的逻辑电路。从性能丄来说， 
今大在一块芯片上实现的处理器已经使20年前价值1_万美元、有房间那么人的超级计算机相形 
见绌即使是在像手机、个人数宇助理和掌丄游戏机这样的 n 常设备中的嵌入式处理器，也比早 
期 i 十算机开 k 各所能想到的强人得多。 

到口前为 [ I -.， 我们看到的汁算机系统只限于机器语§程序级。我们知道处埋器必须执行•系列 

指令，每条指令执行某个简单操作，例如两个数相加 & 指令被编码为白一个或多个 f 节序列组成的 
乂进制格式。一个处埋器支持的指令和指令的字节级编码称为它的 ISA ( instruction-set architecture , 

指令集体系结构）、 + 的处理器“家族'例如 Intel [ A 32 、IB M/Motorola PowerPC 和 Sun Microsystems 

SPARC, 都有不同的 ISA。 一个程序编译成在•-种机器上运行，就不能在另一种机器上运行 f 另外， 
同一个家族也 TH 艮多不同类 M 的处理器。虽然每个 j 商制造的处理器 n 能和 k 杂 H: 不断提岛，但 
足不同的类型在 ISA 级别I•.都保持着兼容。些常见的处理器家族（例如 1A32) 中的处现器分别由 
多个 r 商提供。因此， ISA 在编译器编 St 和处理器设计人员之间提供了个概念抽象展，编译器 
编写者只耑要知道允许哪些指令，以及它们是如何编码的；而处理器设计者必须建造出执行这些指 
令的处进器。 

本章将简要介绍处理器硬什的设 ih 我们将研究一个硬件系统执行某种 ISA 指令的方式，这会 
使你能更好地理解计算机是如何1:作的，以及计算机制造商们面临的技术挑战， •个 很重要的概念 

就是现代处抨器的女际丄作方式可能跟 ISA 隐含的计算桟型人相柃庭。 ISA 模型看 I :去应该是顺序 

指令执行，也就是先取出一条指令.等到它执行完毕，再开始下一条。然而，弓一个时刻只执行一 
条指令相比，通过冏时处理多条指令 的不同 部分，处理器 nj 以获得较高的性能 3 为了保证处理器能 
得到 W 顺序执行相间的结児，\们采用了 •些特殊的机制。在计算机科学中，甲巧妙的方法在提高 
性能的同时 t 乂保持-个更简单、更抽象模型的功能的思想是众所周知的。在 Web 浏览器或像平衡 
- 叉树和哈希表这样的信息检索数据结构中使甲缓存 ， 就是这样的例子。 

你很可能永远郎不会自 d 设计处理器。这是专家们的任务，他们 1. 作在全球小到100家的公司 
甲 .. n 那么为什么你还应该了解处理器设计呢？ 

• 从智力方面 来说， 处理器设计是非常有趣的。 学习处理器是怎忏工作的本身就是一件很心 
总义的車•情。而格外有趣的事情是广解 作为汁 算机科学家和 工枵师 FI 常牛活部分的-个 
系统的内部 I .作原理，特别是很多人都还不了解它 。 处 埋器设 计包括 il •多奵 的上稃 实践原 
埋。它需要完成杂的任务， ifi ] 结构乂要 V 可能简单。 

• 理解处理器是如何工作的能帮助理解整个计算机系统是如何工作的。 在第 6章中，我们将 

讲述4储器 （memory) 系统以及用来创建很人的#储器映像同时又有快速访 问时问 的技术。 
参考处理器端的处理器一#储器接 U 会使那些讲述更完柩 D 

• 虽然很少笮人设计处理器，但是许多人设计包含处理器的硬件系统。将处埋器嵌入到实际 

系统屮， 如汽车 职家用电器，己经变得非常普通了 e 嵌入式系统的设计者必须，解处理器 
是如何工作的，因为这些系统通常昆在比桌面系统更低抽象级别上进行设 it 和编秤的。 

• 你的工作可能就是处理器设计，虽然生产处理器的公司很少 ， 但昆研究处理器的设 计人员 

队忉 c 经非常 r 大了， iff 』 a 还在增人。一个主要的处理器设计的各个方囟人约涉及到800 


现代微处理器对以称得 I .是人类创造出的最复杂的系统之 


多人, 
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本章中，我们首先要定义一个简单的指令集 f 用来作为我们处理器实现的运行示例。因为受到 
IA 32 指令集的发， Iftl 它又被称为 “ X 86' 所以我们称我们的指令集为 “ Y 86” 指令集。朽 IA 32 
相比， Y 86 指令集的数据类型、指令和#址方式都要少-些，它的字 W 级编码也比较簡单。小 H , 
它仍然足够完幣，能让我们写一些简笮的处理整数的稈序。设计一个实现 Y 86 的处理器要求我们面 
对许多处理器设计者同样会面对的句题 e 

接卜来我们会提供一些数字硬件设计的背景。我们会描述处理器中使用的基本构付块，以及它 
们是如何连接起来和操作的。这些介绍是建立在第2章对布尔代数和位操作的讨论的某础上的 。我 
们还将介绍一种描述硬件系统控制部分的简笮语言 ， HCL (Hardware Control Language ♦ 硬件控制语 

言）。过后，我们会用它来描述我们的处理器设计。即使你 d 经冇了-#逻辑设 计的背景知识 ，也应 
该读读这个部分以了解我们的特殊符号。 

作为设计处理器的第-•步，我们给出一个基？顺序探作、功能£确何是冇点不实用的 Y 86 处理 
器。这个处理器每个时钟周期执行-条完幣的 Y 86 指令。所以它的时钟必须足够慢，以允许在-个 
周期内完成所有的动作。这样一个处理器是可以实现的，但是它的性能远远低于相 R 硬件应该能达 
到的性能= 

以这个顺序设计为基础，我们进行一些 A 造，创建 个流水 线化的处理器 （ pipelinedprocessor ) 。 
这个处理器将每条指令的执行分解成五步，每个步骤由-个独立的硬件部分或阶段 （ stage ) 来处理。 
指令步铃流水线的各个阶段， R 每 t 时钟周期冇一条新指令进入流水线。所以 t 处理器可以同时执 
行五条指令的小间阶段。为了使这个处理器保留 Y 86 ISA 的顺序的性质，就要求处珲很多冒險或冲 
突 ( hazard ) 条件。 险就是一条指令的位置或操作数依赖于其他仍在流水线中的指令。 

我们设计广一些工具来研究和测试我们的处理器设计。其中包括 Y 86 的编译器、 存你 的机器上 
运打 YS 6 程序的模拟器，还有计对两个顺序处理器设计和一个流水线化处埋器设计的模拟器 D 这些 
m \ 的抟制逻辑是在用 HCL 符号表示的文件中描述的。通过编辑这些文件和重新编评模拟器，你坷 
以改变和扩展模拟行为。我们还提供许多练习，包括实现新的指令和修改机器处理指令的方式，还 
提供测试代码以帮助你评价你修改的 IH 确性，这些练习将极大地帮助你理解所有这些内容，也能使 
你更理解处理器设计者面临的汴多不同的设计选择。 


4.1 Y 86 指令集体系结构 

如阁4_1 所小， Y 祕程序中的每条指令都会读取或修改处理器状态 的某些 部分，这称为 程序员 
可见 状态，这 M 的 “程序员”既指用汇编代码写程序的人，也包括产生机器鈒代码的编译器。在我 
们的处进器实现中，只要我们能保证机器级枵序能够访问程序员可见状态，就不需要完全按照 ISA 
隐含的方式来表小和组织送个处理器状态。 Y 86 的处理器状态类似子 IA 32 C 有八个 程序寄 存器： 

% ecx , % edx 、% ebx . % esi , % edi , % esp 和％^冲， 处理器毎个程序寄#器存储一个字。寄 

存器 ％ esp 被入栈、出栈、凋用和返回指令作为栈指针。而其他寄存器没冇固定的含义或固定值。有 
个一位的条件码 ； ZF 、 SF 和 OF . 它们保存着有关最近的算术或逻辑指令造成影响的信息。枵序 
汁数器 （ PC ) 里存放着当前£在执行指令的地址。存铋器，从概念 h 来说就是一个很大的字节数组, 
保存蓍枵序和 数据。 Y 86 程序用虚 拟地址 来引用存储器位置。硬件和操作系统软件联合起来将虚拟 
地址翻译成指明数据实际存在#储器中哪个地方的实际或物理地址。我们还将在第 K ) 章中进■步洋 


%eax 
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细 W 论虚拟存储器。现在，我们只认为虚拟存储眩提供给 Y 秘程序一个统一的字 W 数组映像 


程序务存為 


4.1 丫 86程序员可见状态 

问 IA 32 -样， Yb 6 的程 「 f 可以访 lb ] 和修改荇序寄疗器、条件码、 S 序计数器 rpc ) 和存锗 器。 

42给屮 / YS 6 ISA 中各个指令的简单描述。这个指令集就是我们处理器实现的 m Y 86 
指令集基本上是 IA 32 指令集.的-个了集。它只包括四字节整数操作，寻址方式比皎少，操作也皎 
少。因为我们只冇四字以数据，所以称之为"字 （ word )' 在这个图中，左边是指令的汇编码表小， 
右边是字节编码：^汇编码和 IA 32 程序的 GAS 表示 『常类 似。 




nop 


halt 


1 rA 




1 V 




vi rA r D(ffi) 


■ 4lV ffi 


l D(rB), rA 


opi rA 


call 


ret 


pushi rA 


pppi rA 


图 4.2 丫 86 指令集 

棺令编码从】个字竹到 6 个字节不等。-条指令含有_个单宇的指令指示符， nj 能含哲-个甲节的寄存器指不符，还 
可能含有-个叫 f ■节的常饴字。 f ■段 fn 指明 是乂 个牯数操忭 ( OPI ) 或足釆个分义条付 CjXX ) Q 所有的数值都用 卜六 进制 


表示 
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下 W 是 +MY86 指令的更多细节。 

IA32 的 mov] 指令分成『四个不 N1 的指令： irniovl、rrmovl、mrmovl 和 rmmovl， 分别显式 
地栉明源和口的的格式。源 n」 以是立即数 （i)、 寄存器 （ r ) 或存储器 〔m、 指令名字的第 
-个乎母就表明了源的类型。 H 的可以是寄存器 （r ) 或#储器 （ m)。 指令名字的第二个字 
母桁明了 H 的的类5^在决定如何实现它们时，显式地指明数据传送的这叫种类®是很有 
帮助的。 


擊 


两个存储器传送指令中的存储器 J 用方式是简单的基址训位移形式。/I:地址计算巾. 
我们小支持第二变址寄存器 (second index register) 和仟何寄存器值的伸缩 （scaling)。 

同 1 A 32 -样，我们不允许从-个存储器地址良接传送到另一个#储器地址。 W 外，我 
们也不允许将立即数传送到存槠器 。 

有四个整数操作指令，就是图 4.2 中的 OP1。 它们是 addU subK andl 和 xorU 它们只对寄 
存器数据进行操作，而 IA32 还允$对存储器数据进行这些操作。这些指令会设 W :个条件 
码 ZF、SF 和 OF (零、符号和溢出）。 

七个跳转指令（图 4.2 中的 jxx) 是 jmp、jle、jl、je、jne、jge 和 jg^ 根据分支指令的类型 
和条件代码的设置宋选择分支。分支条件和 IA32 的一样 C 见图3/11)。 ^ 

call 指令将返回地址入栈，然后跳到 F1 的地址。 ret 指令从这样的过稈调用中返回。 
pushl 和 pop] 指令实现了入栈和出栈，就像在 IA 32 中-样。 

halt 指令停止指令的执行。 IA32 中有一个与之相气的指令，叫 hit。U32 的应用稃序不允 
许使用这条指令，因为它会导致整个系统停!1:。我们在 Y86 程序中用 hal 〖指令 来停] 1：槙拟 


* 


器 


图 4.2 还给出了指令的字1?级编码，取决于需要那些字段，每条指令需要1〜6个字节不等。每 
条指令的第一个字卞表明指令的类型，这个字节分为两个部分，每部分四位：高四位是代码 （code) 
部分，低四位是功能 〔function) 部分。 如图 4.2 所小，代码值为0〜 B (十六进制)。功能值只有在 
一组相关指令共用-个代码时才有甲。图4,3给出了整数操作和分支指令的具体编码。 

整数操作 


分支指令 


6 0 

I 

I 


7 0 jne 7 1 4 

m 

7 1 jge i 7 5 

II I ； i 1 

7 2 ig 7 6 

L 1_1 ^ [__i 圓— \ 


addl 




- r - ■" 

6 1 


subl 




: ZK , 


andl 






lJT 


xorl 


图 43 丫 86 指令集的功能码 

这些代码指叨是采个幣数操■作还是分支条件 a 这些指令是图 4.2 中所示的 OP〗 和 p(X。 

如图4,4所小，八个程序寄存器中每个都有相应的0〜7的寄存器标识符（把 gisterlD)。Y86 巾 
的寄存器编号跟 1A32 中的相同。程序寄存器被存在 CPU 中的-个寄存器文件中，这个寄存器文件 
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就是一个小的、以寄存器 ID 作为地址的随机访问存储器， ID 值8用十指令编码中， 也我 扪的硬件 
设计中，当盖要指明不应 i 方问任何寄存器时，我们就用这个值来表小。 


数宇 


寄存器名宇 




%ecx 


iedx 

%ebx 

iesp 

%ebp 

feesi 


ledi 


无寄存器 


图 44 Y 86 程序寄存器标识符 

八个秤 序寄冇 器屮每个都屯个相对应的标识符 （ ID ), 0〜 7 U 如果指令屮 J £ 个寄# JTf •段旳偵为 ID 8,就忐明此处没打寄々 
器揀作数。 


冇的指令只有个字节长，而冇的需要操作数的指令编码就更长一些 . 首先，吋能冇附加的寄 
存器指示符字节 （register specifier byie )， 指定 - 个或内个寄4器 。 在图 4.2 中，这些寄行器字段称 

为 rA 和 rB , 从指令的汇编代码表小中可以看到，根据指令类型，指令 p ] ■以指定甲 r 数据源和 U 的 
的寄冇器，或是用于地址计算的基址寄存器。没有寄存器操作数的指令 t 例如分支指令和调用指令. 
就没有寄存器指不符字卄。那些只需要一个寄#器操作数的指令 (irmovK push 〗 和 p 叩 1) 将另一个 
寄存器指禾符设为 L 这种约定在我们的处理器实现中非常有用。 

有鸣指令需要个附加的网宇节常数字 （constant word )。 这个字能作为 irmovl 的立即数数据 * 
作为 rmmovl 和 mrniovl 的地址指示符的位移鼋 7 以及分支指令和调用指令的 H 的地址。注意 ，分支 
指令和调用指令的 S 的是…个绝对地址，而+像 IA 32 中那样使用 PC (程序 it 数器）相关的兴址方 
式。处理器使用 PC 相关的寻址方式，分支指令的编码会更简洁，同时这样也能允许代码从存储器 
的部分拷贝到冗一部分而不芾要更新所有的分支 H 标地址，因为我们更关心描述的简申性，所以 
就使用/绝对4址方式。 RIA 32— 样，所有整数采用小端法 ( littk - endian ) 编码 n 当指令按照反汇 
编格式书写时，这些宁节就以相反的顺序出现 4 

例如，让我们用十六进制来表示指令 rnmovl % es P/ 0 x 12345 (% edx ) 的字 节编码从图 
4.2 我们 可以看到， rirnnov ] 的 第-个 字节为40。源寄存器 ％ esp 应该编码放在 rA 字段中，而基址 
寄存器 ％ edx 应该编码放在 rB 字段中。根据图44中的寄存器编号，我们得到寄存器指小符字节 
42. M 后，位移鼠编码放在四字节的常数字中 3 旨先 d 0 x 12345 的前面填充1:0变成4个宁 V 〗， 

变成字节序列00 01 2315。％成按字竹反序就是 45 23 01 肌将它们都迕接起来就得到指令的编 
码 404245230100. 

指令集的一个1要性质就是字竹编码必须冇惟一的解释。任意一八字节序列要么足个惟… 
的指令序列的编码，要么就不足个合法的字IV序列 D Y86 就具有这个性质，丙为每条指令的第 
-个字节有惟-■的代码和功能组合，给定这个字节，我们就吋以决定所冇其他附加字 P 的长度和 
含义 & 这个性质保 W 了处理器可以无二义忭地执行 R 标代码枵序 。 只要从序列的第一个字节开始 
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处_，即使代码 ft 入在 ft ! 序中 It 他宇 中， 叹们仍然叫 以拫# 驿訄_定 衔令甲 列，反过长说 
聚不 知道一 0代码序刊的起姶位買，我们葙 不电推 砗池1«定葚祥将呼钊划分 戌申 祖的拊令* 

从自标代码字节序判中抽电由机斟圾样序的反}*編裎序柙其龃一 4 J ： 具来说 r 达就帝来 


对于 


厂问«0 


味习挖 4.1 


錢定 Tft 的 V 物指今序钊妗字笮蟪码， 


一 行表明这拽0标代衅妗起％地址咸 it 




■ pa^Oi 


^ihim 


OxIDQ , Slirt gjCfieilliflg COM iL addmeF 物 100 

inn gvl $15j l^bx 

rrmovl %*bx/lECK 


i 


I 


1 mp ： 


vl lEcx.-aitebxj 

这 ddi lebj^tecs 

jm loop 


n 


am 


嫌习 通42 

_： t 下面列 tb 的每个寄节痔刊代表的 Yfl &41 令序蚵，女蕨岸 W 中 * r 不 fr 法的字笮，梱 tfc 柞令率 
外中不合法 fid ! 慝的位 1，每十序列郝先给 tt 了起始蚨婊， 胃兮后是字卞痔科. 

hr OKI 加 T 3 M 1 tcfff fffMHOOOafrDDDlD 

B ■ OKJfiOia J 6 @afl 0802 Oil o 01 A 30 B IQ^tQ Q 咖 0 D 9 D 

OKjDOtM5401DDDOQDDQf_19 

0, Djc 45 dT 6 ll 37 iaD 040 D 0010 

Er Qx 5 DDiG 362 AdeO 






旁注 I 


IljlESaE 




R [AH+rt 稽令％ 码相 tt , YW 的鹹鴿岗箄得但是色没外 i is a . 在 _ 省釣炸 6 邶令+ ■ 

寄存 渡 字秩的拉 1吓是® 定内崔幂 《« IA 32 tt 令中，它们 的往置 是不-，蚪 fit Plit 展多 X 有孩 
十寄存仏我们也 对寄存 »采用 T 4 位编鵠 


tt«Hffl T 3#« + *1811*32 圪叙幾或 it 雌 
令被在一个字巧戈_ 5 侦字 枇表明扑令美 ®! % ] 住 是寄存 H 柑 示择. IA 32 育以将 t 教敁朵川 

炎 L 244 个 字节， 馬 Y 8&.4 是将常教 il 編玛或 4个字笮， 


考注 i RISC 和 CISC 嫩令» 

IAJ 2# 时裱秣秀、复*11夺集计1扣产1_030‘——谈# W h 与相令 G 汁算枕 p f BtSC 
一 镛作 W 3 ■相对‘从均丈上着 h 从 t 早的计算耙复義高来 _ 先 . 现 TCiSC ^ B . 則] 

奶聋 RH 由于机 JtilH 者釦入7根多新相令表夂持高故任务 ■ 例如，电域#11^ ■+ 区， 执行+ 

it 计算 ■■ ft 头求 ■? 墦武的植。： t 髮祝参小逭的栺令屣巳 ii 变得非 f 烕大了 T t 早岣概 itas 士典 
在 2 D 世纪 70卑代旱期，因为去对的* 成电极大 減铡约了 _決芯片上能实及些#幺 

们的樹令美 非嘗有 街恨懺_到加 tirfeBfi 年代 H 大4!机 At 小耷权的拍令弁 i ;. 
杂良 一 if 在磯扣 , ilfttgh IL 展 fij 了 IA 32, 是 KH 也仍: ft 在本_增办新 


以它 
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的 祁令美、来良持* tS 多故体 时需鲁 

W 5 C 的设计《念是在 M # fc SO 年代导期作泠上述发義崦 f 的一钟替 RMUfe 来岣， IBM 鉤 
■"纽硬件和嶋泽》+苹煢對 IBM 得 £S lohd C ^ ic ^ K |3 Ms a 认泠 ftflVfl ■以為 t « 单的 怍今 it 
办式产先高敌的代璃.实标上，许 I 加刘狺令集中的*鹹指令祇农峡越幸恭产4, fi 汰些 H 今也 
浪少被較为用辈的柞令周很少的峡件灰洗，睢以 高鼓的 洸水戏结蛳也识起未，与 
本章 择由棋 述的幘乳根类 ta B ] BNli 到 P 耳以后才轉达个®念商品化，开宸出了 Ptwcr 和 


c 


ISA . 


加蜊太 竿伯免利分帙鈞 Ihvkl 


扣斯 tf fef 的 Me Kctusb 外进 一 f 发長了 RISC 的揪 
念《 hmrwn 将这件翱的权篡类安命■恭为 KBC , 高将以 f 的寒# 排为 C ^ C . 因为 ttlfrltt 必*给 
u 种 JL 乎是4呷的《命蠱格式起名字. 


ie 




tt 较 asc 如 最初的 Rise 攢令 *, 成*]发現 t * 达 棒一恚 一 tt # 也 


* 


t 根 H 豳 I 蜞 i4t«n 命 # i 良 M| l^HT 

多 H 飫 

^ - 

有 ■的 ft # 对叫 ft it . 争 t * 叫辱 _ I a . tttt 4 uHtnu «4. 寒* f n « Rise fcB 甚量 暹有整 | 

■ 个 一邻 fr 的相 t ■- 氣 Jtft- 

I 个埤辟 *1^*4?_«4_StAA«B 樗 I 
取多个 f 冉 * «4t+ 


身， ft 索 im 


■ 4!* 相令、晏表螓 Ut —1 H 駟沾梟 


j * S 的教 令机*町以表 i-U •碼|1定长 il^flf 


十 =FT 


#tiH fcrt 方武 ft J #■ t iAH + ■ AUBkff V, 单 +M+IL 遘 f 只有瘃 和让 #4 址 
fun# 斗 T 以言评 J ;n^tl 倉， 4* 嬗 #4 啟華 1 
iafit & 峰年及作 * q 子麄義 


哥以时和豕 ft 蟑寄母 B ■件截暹 (tmf if 麟 Dt I ■ 尤件 it fl 4*4 f I 

H A 肴 _ # _ m lud 是 崎 -S 读利寄 +1, _ 

_ 是从謦冉 * J ( H 辱镰1 . Am ^*##4 aM ^ rprr 皂麻 •冉 


- ia.il ISA Wflt I ■+象 S 饮 11 序 束托* 珑 

T 1i 序和序之 H 錡 t A 4 私拿 


e tta 承 iME 

# 轉殊 * Hitt «■ 聲 HT 一 m 争找杆 tTWii 

才 fr±«. 嶋+冲 **! 在♦件 Ti 行铍 IMUt 


• 4 iT -| t #* I 及轉美 ■ 对来说 

mrn ^- f #« 的 彆* ■中 

4«4_ 过 tt4U4- MtMw I «4AetHU«IUI r 輙 4 奴遂 

4 At 4 Ij t If I .q h 4 TM ； iCtt 4 ：tf 

f*| 的嘗 》+ j ##■ 




#>#* 11 , iyw"] .|Lft* 1*4 


地 tt 


VSA 忭令乐 Utasc 相令 t 的属性 fc 4 有 RISC 枏 夺秦时 具社.和 CISC —科 w 它有 M ■踔 
相今长度町纪 P 以及栈 f * 的过0韃接，和 RISC —#的是，它采緝 lmd /5 
iRlulirciicodiqg ), 找夺 4可 fif 成是采用的 t ' ISC 栲令 l (1 A 32), ft 文根#茱些 RISC 的原 

«逄疔了崎化 . 
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旁注 『 RISC 与 CISC 之争 

貧穿整个加士|£ 


年计算机体 ft ft 构鏑城置美+ RISC 相令羲扣 CISC 41令集 忧鹹 点釣争 
冷十分 激也， Hiscrtl# 老声#在粉定硬件歡 f 的幘軋 F _ 遑_合«灼]^14^|设计* £«_鋒 

绔定的 ttfr 只需委用较 少的 0父揞今，而且 这# 的机 an 够 t 得較 t 的 总本 性牝 

大多軟公司去 LHiibT RISC 炝埤器▲具， fefeSuT ! f 

£ PD'«rPC it 以及 Dicili]E(|ui|imflaiC 師抽㈣【 

在 20iiHtM 丰代早 _ h 争说速漸 平息. B 淹事漪政 T_ 元论 是攀鷗的 RISC 还是单 
盹的 CISC ，: A 如蛄合, # 愁备精。 if 的设# K RISC 机 nt 狐进 化 的过祖 中.了更多 的 * 

许多述_的相今雜需餐執行多个肩期，令天 rt K 1 SC 机羼崎雜令表中有 / LfffMtt 令. 儿 f 与 *4 tn 

It 令乘 权苒’ 齣皐 时芊相 卉: N ， 种待实现节 .O 聲机 Jt .-flt 濘的畀 ft 已皎被 i£ 蜞是 敏视的 了 + 
随着使刻更永高级吹#岵典的新缝龙雎供级的牙复 a 件多式现 y 节已炫 宪得推落痏了，担它们仍汰 
是栉令集的# 部分 B 不过，作* 1«SC:t 计的权也的推夺集仍 然是 诈常速合在洗 水玫化 的机*上执 


CISC 0拥趸反级说要定成一个 


kTOi 打 te rm ( 


C i. IBM 和 M 




j ! RlC 


行的 


AltfrrtCISC 权 》 也利 AT 岛姓 ft 遴水线 味相. 就皋我们将在 S .7 苄中付论的郡样_它 讥诰取 
CISC 枓令， f 动态 it 扣译成叱帙 ，車的 

器相如的栉令斌娴译成三个 j 、 作： 一个 是读原 h 的舟储萁值，—+爰执行知法速算 4 第三 it 是4和 
xra #^ S - 钫态_各遢膏可 w 在实哞捆令故行奸 迷行, 地 aa 砰以*猗很*的执佇卓， 

除 T 技术因索 《*_ P 市场 St 也在璣定不 WftMi 是#成功命起了很重要_作用. i | 边悚持為 
祀有处 SS 的兼容_ 1啤1 oi 或 IA 32 使得从一代处*»迁轉对下一代变得痕容易，由 ti 成兔路技 
术的 迷步. _ nlci 和其 AlAM 嶋栉今足放计速成的氦政象使用 RISC 

技术产4土与巍好《 & isc 机 s 相去的性能 * 在*而和便毽计算賴域_*, IAH 


ff # 的#作的序列，—条#寄存》和存播 


Wi 




瞧处*葙在嵌入太埯 3 *»申蝣上表珧得#常达 t , 夜入; iUtaiJi t #! M # 动电汽年利 

丰崧反珀杵网设甚_|繞」在遠#应辦争，彆低 A 本和砩耗氏保# 后角兼 容性史 耋典， 就由讀的 It 

欽量表汍〜这是令卟常疒霣*选遑成长*的市 i* a 


阳 4.5 饴由了下曲这 f C rt 数的 ■ A 32 和 YS 6 ?!；壤代 R 


int Splint ■starts icit Cpgntl 


i^t ium = Dj 
此 il& [Cwnt) { 
tmMi +•= * start 』 


Count--j 


ifEturn a 


iiii 
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1 A 32 代码 

int Sumfint 本 Start，int Count) 


Sum : 

pushl %ebp 

movl %esp f %ebp 
movl 8 f%ebp},%ecx 
movl 12(%ebp), 
xorl %eax f %eax 
testl %edx,%edx 


=Statt 

edx = Count 


ecx 


= 0 


sum 


L 34 




■ L 35 


add *Start to sum 
Start 

Count- 

Stop when 0 


addl (%ecx[,%eax 
addl $4,%ecx 

decl %edx 

jnz .L35 


10 


H ■■ 


12 


14 儿 34 


movl %sbp,%esp 

popl %ebp 

ret 


15 


16 


17 


Y 86 代码 


int Sum(int *Start } int Count) 


Sum 


pushl %ebp 
rrmovl %esp,%ebp 
mrinovl 8 l%ebpl , %ecx 

■movl 12 (%ebp) , %edx edx = Count 

sum = 0 


2 


=Start 


4 


ecx 


xorl %eax,%eax 

andl %edx,%eox 

i e End 


Loop : 

rnrmovl ( %ecx) , %esi get 'Start 

add to sum 


10 


■dddl r % e^x 

ir^ov1 $4.%ebx 

addl %ebx.%ecx 

irmovl $ -1；%ebx 
addl %ebx r %edx 


12 


Starts + 


13 


14 


Count- 


15 


Stop whert 0 


jne T.oop 


l 1 End ! 


18 


rrmcvl %ebp f %esp 

pop] %ebp 


20 


ret 


4.5 丫 86 汇编程序与 IA 32 汇编程序比较 

Sum 违数 il 算_个粮 t 数组的和。 YS 6 代码 4 IA 32 代码的令要区别 ftt , 它叶能需要名条 ffi 令来执■条 IA 32 指令所完成 
的功 I 


a 
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这段 IA 32 代码是 C 编译器 GCC 产牛:的。 Y 86 代码实质上是一样的，除了 Y 86 有时需要两条指 

令来完成 IA 32 -条 指令就能完成的事情 Q 如果我们用数组索引來写这个程序，要转换成 Y 86 代码 
就困难多 广因为 Y 86 没有伸缩 ( seated ) 寻址 模式。 

图 4.6 给出 f -个用 Y 86 汇编代码编写的一个完整的程序文件 的例了 。这个程序既包括数据， 
也包栝指令，命令 （ directive ) 指明应该将代码或数据放在什么位置，以及如何对齐 （ align )。 这个 
程序详细说明了栈的放置、数据初始化、程序初始化和程序结束等问题。 


code/arch/y86-code/asum. ys 


# Execution begins at address 0 

*pos 0 

irmovl Stack ； %esp # Set up Stack pointer 
irmovl Stack, %ebp # Set up base pointer 

jmp Main 


1 


iiiit : 


巷 Execute main program 


^ Array of 4 elements 


8 


.align 4 

array : - long Oxd 

* long OxcO 

,long OxbOO 
.long 0xc.000 


9 




11 


12 


13 


14 Main: 


irmovl $4,%eax 

pushl 

lnnovl array,%edx 
pushl %edx 

cal 1 Sum 

halt 


lb 


# Push 4 


16 


17 


# Push array 

# Sum(array ， 4} 


18 


19 


20 


21 


# int Sum(int ^Start f int Count) 

pushl %ebp 
rrmovl %esp,%ebp 

mrmovl 8(% ebp) , % ecx # ecx = Start 
inrmovl 12 [%ebp) , %edx #edx = Count 
irmovl $0, %eax 

andl %edx p %edx 

je End 

mrmovl (%ecx) f %esi 
addl ^e&i,%eax 
irmovl $4,%ebx 
addl %ebx,%ecx 
irmovl $-1,%ebx 
addl %ebx,%edx 
jne Loop 
popl %ebp 


22 Sum: 


23 


24 


25 


26 


# sum = 0 


27 


28 


29 Loop ： 


持 get 戈 Start 

# add to sum 


30 


3J 


# 


32 


# Stan ++ 


33 




34 


# Count— 

# Stop when 0 




36 End : 


22H 


i7 

kj - 1 


rel. 


^3 


,pos 0x100 
# The stack goes here 


39 Stack 


code/arch/v$6-code/a^um, ys 

T 1 


4.6 用丫 86 汇编代码写的一个例子程序 


调用 Sum 呐数来计算 4 兀素数组 的和。 


在这个程序中，以开头的 W 是汇编器命令 （assembler directive), 它们告诉汇编器调整地 

址，以便在那儿产生代码或插入一些数据。命令 .post) (第2行）告诉汇编器应该从地址0处斤始产 

这个地址是所冇 Y86 程序的起点。接下宋的两条指令（第3行和第4行）初姶化栈指针和 
顿指针。我们 iij 以看到稈序结尾处（第39行）声明 f 标号 Stack ， 并且用命令宋指明广地 

址0x100。闪此我们的栈会从这个地址开始，向下增悅。 

程序的第8〜12行声明了 一个叫 个字的 数组，值分别为 Oxd、OxcO、OxbOO 和 OxaOOO. 标兮 array 

表明了这个数组的起始，并 n^FZg 字节边界处对齐（用 .align 命令指定）。第14〜19 行 给出了 
过程，在过程中对那个四个字的数组调用 f Sum 函数，然后停止。 

E 如从例 到的 那样，用 Y86 写程序要求枰序 w 完成本乘通常交给编译器、链接器相运行吋 
系统来完成的任簽。幸好我们 HWY8& 来写一些小的程序，对此一些简单的机制 就足够 

圈4,7是一个我们称为 YAS 的汇编器对围 4.6 中代码进行 t 编的结杲.为了便于理解，汇编器 
的输出结果是 ASCII 码格式的。汇编文什中，在有指令或数据的行上， H 标代码包贪一个地址，后 
面跟着1〜 fi 个宁节的值 . 


main 


c(yde/arch/y86, code/aaum.yo 


# Execntio?i begins at address 0 

'pos 0 

irrnovl Stack ； %esp 

irmovl Stack, %ebp 
jmp Main 


0x000 : 

0x000: 303600010000 I init : 
0x006: 3087000I000D 1 

0x00c ： 7024000000 1 


# Set up Slack pointer 

# Set up b^ise pointer 

# Execute main program 


# Army of 4 elements 


0x014 ： 

0x014 ： OdOOMOO 
0x010 ； cOOOGOOO 
0x01c ： OOObOOOO 

0x02D ； 00^03000 


.align 4 
- long Dxd 

.long OxcO 

.^ong OxbOD 
.]ong OxaOOO 


I ai'Lay : 


0x024 ： 3O8O34O0OCOO I Main ： 
0x02a ： a0O8 | 

0xt)2c: 308214000000 I 

0x032r a023 

0x03^: SOiaOOOOOO I 

0x039 ： ia ! 


imovl $4, %eax 

%eax 

■ 

irmovl array, 

■oushl %edx 

■ 

call Sum 
halt 


# Push 4 


林 Push arnix 

r 

#Sum(arra\, 4) 


# int Sumfint ^Start, int Count} 

pushl %cbp 
rrmovl %ebp 


0x03a ： a058 
0x03c ： 2045 


Sum 
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OxD3e: 501503000000 I 
0x044 ； 50250d300000 | 

0x04a ： 308000000000 I 
0x050r 6222 I 

0x052r 7374000000 I 
OxO&7 : S06100000000 I Loop: 
0x05d: 6060 I 

0x05f: 308304000000 I 

0x065: 6031 I 

0x067 ： 3083ffffffff ! 

0x05d ： 6032 
0x05f: 7457000000 
0x074 ； b058 
0x076 ： 90 

0x130^ 

0x100 ： 


f^ecx - Start 
禅 edx= Count 
# sunt - 0 


mrmovl 8(%ebp),%ecx 
mrmovl 12[%ebp) f %edx 
irmovl $0, %eax 
andl ^edx f %edx 
i e End 


mrmovl (%ecx) f %esi ^get ^Start 
addl %esi；%eax 
irmovl $4, %ebx 
addl iebXi %ecx 

irmovl $-1,%ebx 

addl iebx f %edx 
jne Loop 


# add to sum 


# 


# Start 


翁 


# Count— 

# Stop when 0 


End: popl %ebp 


ret 

.pos 0x100 
林 The stack goes here 


Stac<i 


code/a rch/ySd-code/asum. yo 


图 4.7 YAS 汇编器的输出 

每一 行色含 一个十六进制的地址 + 以及宇竹数在】〜 6 之间的 0 标代码 。 


我们实现了 一个指令集模拟器，称为 YIS。 用模拟器运行我们的例 T 的 R 标代码，产生下面这 


样的输出 


Stopped in 46 steps at PC 

Changes to registers ： 

%eax : 

%ecx: 

%ebx ： 

%esp : 

%ebp : 

%esi r 

Changes to memory ； 

OxOOfO; 0x00000000 
0x00f4; 0x00000000 

0x00f8: 0x00000000 
OxDDEc: 0x00000000 


0x3a. Exception ; HLT 


CC Z=1 S=D 0^0 


0x00000000 

0x00000000 

0x00000000 

0x00000000 

0x00000000 

0x00000000 


OxOOOOabcd 

0x00000024 

OxffffiffE 

OxOOOOOOfB 

0x00000100 

OxOOOOdOOO 


0x00000100 

0x00000039 

0x00000014 

0x00000004 


模拟器只打印出在模拟过程中被改变的寄存器或存储器中的字 a 左边给出的是原始值（这里它 
们都是0)，右边的是最后的值。从输出中我们 n ] 以看到，寄存器的值为 Oxabcd , 即传给 f 函 

数 Sum 的四元素数组的和。另外，我们还能看到栈从地址 0x100 开始，向下增长，栈的使用导致了 
存储器地址 OxtO-Oxfc 都发生了变化。 


线习鼉 4.3 

根据下面的 C 代码，用 Y86 代码来实现一个递归求和函数 rSum 


int rSum [int *Start, int Count) 



no 


il ICount 

irt'turn 0: 
f&ULrn *Scart 


Q] 


rSmrHStart»1 』 Ceunt-I] r 


在 一台机器上 鷂译速 AC 忾蚪 ■ M 斿再把孤费祁寺成 YS 6 的祚令，这■样做町 埯旮执 




练习 14.4 

_|树令 会也拽 fS 杆减 4. 并 il #-" 个寄界甚 信写入 存铋萁 + - 在执行 ■处 
獲其的行为是不坤 t 的.0为要\钱的寄4其会*円一条 W 今修改-通索有两种杓定； 

的席隹仇： ® 成了 4 ¥ i % t%y S ^ fl , 

让我们采卅和 1 A 12 处眾 S — 样的敏法夂畔决这个问场 . 我 Uifri 通 过阳读 Tp « S 夹于 A 条相今 


的文 梏象 T 觯它们妗鐵法.但更铒■章的方決是在实对■的軋 S 上斌个 实松， （!11诛》威噱情况卞是不 

食卢来速条^夺的_所我々]+ ii 成的 ic 編代码来完 mt f. 正知 ： m s 节中鐮 

特怯， r 改 it 我训箄岣 一个倒 


4一个 C fF 序争入少 f 汇编代码的義砰才法軚是值 rt OCC 的 
试秘序. mu 与其认田读嫌 Vi 声明 ■ 不扣读它前畤注释中的汜鴆代碑-攀样鲁旱多 


urn 


int pysht€#t i I 


5nt rval 


/* Insert ehe following n^t^hly cdd &： 

I SA \ t ^ stack pointer 

I Push ^tack painter 

► Pot it back 


mpvl lep ： p P %cajc 
pu^hl %fliip 

ppp1 1cdx 

tubl %eax 
mvl teax.rval 


c-r 




return 1 dfi 


as 


wL ^'^eaps. %% P53Ci pushl % ieli-pppop 1 I %€^K r 
B-ubl % 知办 . Mdi j riDvl 仝 d K H 10 ’ 

tf a (rvalj 
i /， We Input */ 

i B ledx 

return rval 


asn I 


■ 


F* 


\ 


ItSK 11 1 


在我们的萁銓 t , 我 现禹教 [ H1：*1 呀 1 达 ra 的爰 0, 迷表承在 IA 32 中 piiihi 嚷 《p 推今的行为 

足 i 得的呢？ 

域马通 4.$ 

对 popl «« p 指+也 f 类 . 1认鈞歧 （. 可 汉轉％ 1為从存傭名中逢 ifc 的 
总的找柞针.闲对 地习虼 辑，设 我訇做个实垃 教碥定 _ A 32^ S 是 . t - Mt 熳述务掮令的 ■ M 后 
杈们的 V $6 相采丹 円样 的方法^ 


为加了 4 


ri 


int p^pteat liEit t™i) 
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int: rval ; 

"InserL the following assembly code 

pushl tval 

movl %esp r %edx 

popl %esp 
movl %esp,rval 
movl %edx,%esp # Restore original stack pointer 


# Save tval on stack 


# Save stack pointer 

# Pop to stack pointer, 

# Set popped value 


return va-lue 


as 


a£?m( "pushl %1 ； movl %%esp ； %%edx; popl %%esp; 

movl %%esp,%0; movl %%edx^ %%esp" 

r 11 (rval) 

"(tval) 

: "%edx H )； 
return rval; 


■ 

■ 


r 


我们发现函数总是遂回 tvah 也就是传进去作为参数的？ 5 个值，这表示在 IA32 中 popl %esp 指 
令的行为是怎样的？还有什么其他 Y86 指今也应该有相同的行为吗？ 


4.2 逻辑设计和硬件控制语言 HCL 

在硬件设汁屮，电子电路被用来计算位的函数 （ ftmctiomionbits )， 以及在各种存储器元素中存 
储位。大多数现代电路技术都是用信号线上的高电压或低电压来表小不同的位值。通常的技木中， 
逻辑1是用 K 0 伏特左右的高电压表示的，而逻辑0是用 0.0 伏待左右的低电压表示的。要实现一 
个数字系统需要三个主要的组成部分：计算位的函数的组合逻辑、存储位的冇储器元素，以及控制 
存储器元索更新的时钟信号。 

本节巾7我们简要描述这些不同的组成部分 。 我们还将介绍 HCL (hardware control language ， 

硬件控制语言），我们用这种语言来描述不同处理器设计的控制逻辑。在此我们只是简略地描述 
HCL , HCL 完整的参考请见附录 A 。 

旁注: 现代 S 辑设计 

硬件设计者曾经描绘示意性的逻辑电路困来进行电路设计（象早是用紙和笔函，后来是用计算 
机囝形终 端). 现在，大多数设计都是用 HDL 来表达的， HDL 是一种文本表示，看上去和编租语言 
类似，但是它是用来描述硬件结构而不是祖序行为的 • 最常用的语言是 Verilog , 它的语法类似于 C , 
另一种是 VHDL , 它的语法类似于編程语言 Ada , 达些语言本来都是用来表示数字电路的棋拟模型 
的.在20世纪80年代中期，研究者开发出了逻辑合成 （logic synthesis ) 程序，它可以根据 HDL 
的描述生成有效的电珞设计 t 现在出現了许多甫用的合成程序，它们已经成为产生教字电路的主要 
技术. 从手工设计电路到合成生成的转交就好像从写汇編程序到写高级语言租序，再用蹁译器来产 

生机 器代城 的转交一样. 


4.2.1 逻辑门 

逻辑门是数字电路的基本计算元素。它们产生的 输出， 等于它们输入位值的某个布尔函数。阁 
48给出的是布尔函数 AND、OR 和 NOT 的标准符号，布尔操作的逻辑门 F 面是对应的 HCL 表达 
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ij 正加你 d 的那拇 ■ ft 们采用/(：中_1轵运算拧的讲4 CIL 2 JJ AN 口用私 t + i^i 0 

_元制 NOTfflN * 示 • 不用 C 申的位屬》特 4 , WHI 因为® I 门只# -个伶进 tl ， E 作 1 
而不 I 整十宇, 


And 


Ot 


N 


一 ™' n 3 如 


h 


輪出 ■ ■ 


^«U= s *tb 


輸 HI ■ a I b 

4.8 逋投门 类 3 J 


神个 fTi* 生 m 也珥 

通 WCfi 进话 动的 im^h 一 旦一个 N 的蝓入变化了_在很短的时间内，俺出《会 ffijmt 化 

^ 22 绝合电路和 HGL 缶尔表达式 

柙报车的逻树门组#成一个 affj ® 晚徘 ： mtffyi t 
坷姐成这个 M 冇两条阪定= 

* 两个谀多 个逻讲 门的掮出不接在: s 判它 iff 吋秕会使线 ■■. 的疔致一个不 

合法鱒电压或电 Kttttt 

# 这个网必笨进尤扑的_毡犹是在网屮不 1 冇格柃钱过一系舛的「】而形成一个回路> mm 

回咮会辱域谈 w 络的卟 甘喊數仵歧文 s 

咮 4& 魃一个我扪觉得祁常有用的间離纽合电路的例于 * 它有畀 t 输入 a# h, 有愤 … 的 _r!j- a 

b * 是 I (从上塵 _ AM 3 nWmtllU 或都 jftfl (从 Fii 的 AMDf ] nJ 以 t 祕）时 . tt 
出为“曜^来写这个^的曲败娥岛, 

bccl ^ ( a IS ? b t 1 1 ( !a ^ lb h 


pu 誠 i ⑽ 4 l Mock )! 12 糊合 t 麻 a 知 


cnrii 


， l b 


检屬位 利等的 _ 合电栉 


3 flA # AQ __4 Ht _ 摯 Hl，FU 

ii ® 代询 ® rp ■地追殳了位钕（教据 I ! 电 b ® [表明了达一点） B 兑讀入的由数 

从这个例 r 咐以# n _ Ha . mi c mmfk 

Nc ^- tt r 我 ffjx 把 t 肴威拽 Ilf 一 WttWff 枸结兜 &入存 诸眯中某个位置，相反 p 它 RJ | 用 
个 fe 宇來神渭一个表达式, 


将一个信号名4-"个丧达式耿系 a 来，不过 


练习眩46 

写一个 fit ■今 


HCL Wr 就是具或 s 谢 ^■ 为 a 和 h r 11 今上而之义的 cq 有什 


i 关*? 
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图 4.10 给出了另一个简单但很有用的组合电路，称为多路复用器 （ multiplexor )。 多路复用器根 

据输入控制信号的值 f 从…组不同的数据信号中选出一个。迮这个单个位的多路复用器中，两个数 
据信号是输入位 a 和 b， 控制信号是输入位 s。3s 为1时，输出等于而当 s 为0时，输出等于 
b. 在这个电路中，我们可以看出两个 AND 门决定了是否将它们相对应的数据输入传送到 OR 门。 
当 s 为0时，上面的 AND 门将传送信号 b (因为这个门的另一个输入是! S ), 而当 s 为1时，卜面的 
AND H 将传送信号 a 。 接下来，我们来写输出信号的 HCL 表达式，使用的就是组合逻辑中相间的 


操作 


bool out 


(S && B. ) I ( ! s && t? } 


位多 IMl 用麝 


b 


out 


4.10 单个位的多路复用器电路 

如果控制倍号 S 为 U 则输出等 f • 输入 a: 当 5 为 0 时，输出等于输入 L 

我们的 HCL 表达式很清楚地表明了组合逻辑电路和 C 中逻辑表达式的相似之处。它们都是用 
布尔操作来对输入进行计算的 函数。 值得注意的是，这两种表达计算的方法之间有些 区别： 

• 因为组合电路是由一些逻辑门组成的，它有个属性就是输出会持续地响应输入的变化 。如 

果电路的输入变化了，在一定的延迟之后，输出也会相应地变化。相比之 h% C 表达式只 

会在程序执行过程中被遇到时才进行求值 & 

• C 的逻辑表达式允许参数是任意整数，0表示 FALSE , 其他任何值都表示 TRUE 。 而我们的 
逻辑门只对位值0和 I 进行操作。 

• C 的逻辑表达式有个属性就是它们 可能只 被部分求值。如杲一个 AND 或 OR 操作的结 果只用 
对第一个参数求值就能确定，那么就不用对第二个参数求值了。例如，这样一个 C 表 込式： 




(a && ]d ) func[ b 


这里哟数 ftmc 是不会被调用的，因为表达式 ( a &&! a ) 求值为0。而组合逻辑没有部分 
求值这条规则，逻辑门只是简筝地响应它们输入的变化， 

4.2.3 字级的组合电路和 HCL 整数表达式 

通过将逻辑门组成一个更大的网，我们可以构造出能计算更加复杂函数的组合逻辑。通常，我 

们设计了能对数据字 （datawords) 进行操作的电路。它们是 些 位级的倍号，代表 - 个整数或一些 

控制模式，例如，我们的处理器设计将包括有很多字，字的大小为4〜32位，代表整数、地址、指 
令代码和寄存器标炽符。 

执行字级计算的组合电路是根据输入字的各个位，用逻辑门来计算输 W 字的各个位 D 例如图 U1 
中的一个组合电路，它测试两个32位字 A 和 B 是否相等。也就是 t 当 fl 仅当 A 的每^位都和 B 的 
相应位相等时，输出才为1。这个电路是用32个图4+9中所示的那样的单个位相等电路实现的。这 
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select^ 


expr^ 


这个表达式包泠一系列的情况，每种情况〗都有一个布尔表达式和一个整数表达式 expr t f 
前者表明什么时候该选择这种情况，后者指明的是返回值。 

同 C 的开关 ( switch ) 语句不同，这里不要求不同的选择表达式之间辽斥 & 从逻辑上讲，这些 
选择表达式是顺序求值的， _ R .第-个被求值为1的情况会被选中。例如，图 4.12 中的字级多路复 ffl 
器用 HCL 来描述就是： 


int Out 
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卞级抽 $ 


A ) 位级实现 


cut 31 
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int- Out =[ 
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4,12 字级多路复用器电路 

当控制倍号 s 为〗时，输出会芳丁-输入字 A , 否则著十 HCL 中是用情况 Cuase ) 表达式来描述多路 S 币器的， 

在这段代码屮 f 第二个选择表达式就是1,表明如果前面没有情况被选中，那就选择这种情况。 
这是 HCL 中-种指定畎认情况的方法。几乎所有的情况表达式都是以此结尾的。 

允许+互斥的选择表达式使得 HCL 代码的可读性更奵。实际的硬件多路复用器的信号必须互 
斥，它们要控制哪个输入字应该被传送到输出，就像图4,[2中的信号 5 和! 3 。要将一个 HCL 情况表 
达式翻译成硬件，逻辑合成 (logic synthesis ) 程序 需要分 析选择表达式集合，并解决任何可能的冲 
%、 确保只有第一个满足的情况才会被选中。 

选择表达式可以是任意的布尔表达式，且有任意多的情况 ( case ). 这就使得情况表达式能描述 
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时更新第2个寄存器的状态。每个端口都有一个地址输入，表明该选择哪个程序寄存器，另外还有 
一 个数据输出或对应该程序寄存器的输入值6地址是用图44中编码表示的寄存器标识符。两个读 

端口有地址输入 srcA 和 srcB〔“source 和 

A ” 和 ％ due B ” 的缩写）。写端口有地址输入 dstW (^ desunationW " 的缩写），以及数据输入 valW 


B ” 的缩写）和数据输出 valA 和 valB (“value 


source 


("value W w 的缩写)。 


虽然寄存器文件不是组合电路(因为它有内部的存储)，但是从中读取字的操作_以地址为输入、 
数据为输出的一块组合逻辑是一样的。当 srcA 或 srcB 被设成某个寄存器 ID 时，在一段延迟之后， 
相应程序寄存器的值就会出现在 valA 或 valB 上。例如 T 将 srcA 设为 3 t 就会读程序寄冇器 
的值，然后这个值就会出现在输出 valA 上。 

时钟信号按照类似于将值加载进时钟寄存器一样的方式控制向寄存器文件写入字。每次时钟上 
升时，输入 valW 上的值被写入输入 dstW 上的寄存器 ID 指示的程序寄存器。当 dstW 设为特殊的 

ID 值8时，不会写任何程序寄存器。 


4.3 Y 86 的顺序 （ sequential ) 实现 

现在我们已经.有了实现 YS 6 处理器所需要的部件。誇先，我们讲-汁称为 SEQ ( 取的是 “ se q ue mia 3” 
处理器的意思）的处理器。每个时钟周期上， SEQ 执行用来处理一条完整指令所需的所有步骤。不过 
这需要一个很长的时钟周期时间，因此时钟周期频率会低到不 可接受 。我们开发 SEQ 的 S 标就是提供 
实现我们最终冃的的第一步，我们的最终目的是实现一个高效的、流水线化的处理器， 

4.3.1 将处理组织成阶段 

通常，处理一条指令包括很多操作。我们将它们组织成某个特殊的阶段序列，使得即使指令的 
动作差异很大，但所有的指令都遵循统一的序列 。 每一步的具体处理取决于正在执打的指令。创建 
这么一个框架使我们能够设计一个能充分利用硬件的处理器，下面是关于各个阶段以及各阶段内执 
行操作的简略 描述： 

• 取指 ( fetch )： 取指阶段从存储器读入指令，地址为程序计数器 ( PC ) 的值。从指令巾抽取 

出指令指示符字节的两个四位部分，称为 icode (指令代码）和 ifun (指令功能) & 它可能取 

出一个寄存器 指小符 字节，指明一个或两个寄存器操作数指示符 rA 和它还可能取出 
一个四字节常数宇 valC , 它按顺序方式计算当前指令的下一条指令的迪址 valP , 也就是说， 
valP 等于 PC 的值加上己取出指令的长度。 

• 解码 （ decode ): 解码阶段从寄存器文件读入最多两个操作数，得到值 valA 和/或 valB 。 通 

常，它读入指令 rA 和 rB 字段指明的寄存器，不过有些指令是读寄存器 ％ esp 的。 

• 执行 （ ewcme ): 在执行阶段，算术/逻辑单元 （ AUJ ) 要么执行指令指明的操作（根据 ifun 

的值)，计算存储器引用的有效地址 f 要么增加或减少栈指针。我们称得到的值为 valE , 在 

此，也可能设置条件码 & 对一条跳转指令来说，这个阶段会检验条付码和 Ciftm 给出的） 
分支条件，看是不是应该选择分支。 

• 访存 ( memory ): 访存阶段可以将数据写入存储器,或者从存储器读出数据。读出的值为 valM . 
* 写回 （ writeback ): 写回阶段最多可以写两个结果到寄存器文件。 
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• 更新 PC (PC update ): 将 PC 设賈成下一条指令的地址。 

处理器无限制地循环执行这些阶段 f 只有在遇到 halt 指令或一些错误情况时，才会停下来。我 
们处理的错误情况包括非法存储器地址（程序地址或数据地址)，以及非法指令。 

从前面的讲述坷以看出，执行 〃条 指令是需要进行很多处理的9不仅要执行指令所表明的操作， 
还要计算池址、更新栈指针，以及确定 F 条指令的地址 4 幸好每条指令的整个流程都比较相似。 
因为我们想使硬件数童尽瓦能的少，汴且最终将把它映射到-个二维的集成电路芯片的表面，-个 
作常简单而一致的结构是非常重要的。降低复杂度的一种方法是让不同的指令共享烬甭多的硬件。 
例如，我们的每个处理器设计都只含有一 个算术 /逻辑单兀，根据所执行的指令类型的不同，它的使 
用方式也不间。在硬件上复制逻辑块的戍本比软件中冇重复代码的成本大得多 * 而 PL 在硬件系统中 
处理许多特殊情况和特性要比用软件来处理闲难得多。 

我们面临的一个挑战是将每条不同指令所需要的计算放入到上述那个通用框架中。我们会使用图 
4+15中所小的代码来描述不同 Y 86 指令的处理。图 4.16 〜图4]9中的表描述 f 不同 Y 86 指令在各个 
阶段是怎咋处理的。要好奵研究一下这些表，表中的这种格式很容易映射到硬件。这些表中的每-行 
都描述 f 一个信号或存储状态的分配（用分配操作夸来表示)。阅谫时可以把它看成是从上至 F 的顺 
序 求值。 后 iti 我们将这些计算映射到硬件时，会发现其实并不需要严格按照顺序来执行这些求值。 


0x000 r 30B209000000 I 
0x006: 308315000000 1 
0x00c ： 6123 I 

OxOOe ： 3 训 480000000 

5 0x014: 404364000000 

6 0x01a; a028 

7 0x01c ： bOC8 

3 OxOle: 7328000000 

9 0x023: 8029000000 

10 0x028 ： 

11 0x02fl: 10 

：2 0x029: 

0x0?9^ 90 1 


irmovl $9, %edx 
icmovl $21, %ebx 
sabl %edx f iebx 
irmovl $128,%esp 
rmmovl 100(%ebx) #store 

pushl %edx 
popl %eax 
je done 

call prec 


ril- 


# subtract 

# Practice Prob. 4.9 


# push 

# Practice Proh. 4J0 


#Not token 

# Practice Prob, 4J3 


done: 


halt 


proc : 


# Return 


ret 


4.15 丫 86 指令序列示例 
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我们会通过各个阶段来跖踪这呰指令的处珲。 

图4」6给出了 OP 1 (整数和逻辑运算 〕、 mnovl (寄存器-寄存器传送）和 irtmwl (立即数•寄存 

器传送）类型的指令所需的处理。让我们先来考虑一下整数操作， M 顾图41寸以看到我们小心 
地选择了指令编码，这样匹个整数操作 （ addl、subK andl 和 xorl ) 有着相同的 icode 值。我们可以 
以相同的歩骤顺序来处理它们，除了 ALU 计算必须根据编码的具体的指令操作来设定。 

整数操怍指令的处理遵循丄面列出的通用模式。在取指阶段，我们小耑要常数字，所以 uIP 的 
计算就是 PC + 2。在解码阶段，我们要读两个操作数。在执行阶段，它们和功能指示符 ifuti- - 起再 
提供给 ALU, 然后 valE 内放入指令结果。 这个计 算是用表达式 vdB OP valA 来表达的，这甲 OP 
代表 ifim 指定的操作 D 要 at 两个参数的顺序——这个顺序与 Y86 ( 和 IA32) 的习惯是一致的。例 
如，指令 subl%eax，％edx, 计算的是 R[%edx] - R[%eaxl 的值。 这些指令6：访存阶段什么也不做，而 
在写 M 阶段， valE 被写入寄存器 rB, 然后 PC 设为 valP. 整个指令的执行就结束广。 
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9t& 


卄算 


mrmovl D(rB), rA 

k>ode:lfun - Mi [PC] 

rA;rB - M^PC+1] 

valC — Wl 4 [PC+2] 
valP - PC+6 


OP1 


取 ft 


icod0：ifun - Mi[PC) 

rA:rB - M^PC+1] 


KKi 


rA.rB 


valC 


valP 


valP ^ PC 十 2 

valA — R[rA] 
valB - R 【 rB] 

valE — va 旧 OPvalA 
SetCC 


vatA, srcA 
va 旧 ， srcB 


- R[rB] 

- l ^-^ 

vaE — valB+valC 


A 行 


valE 


Coad.codes 


m 


valM — M^tvalE] 


写回 


A[rB] — valE 


dstE 


L dstM 


R[rA) - valM 


更新 rc 


PC 


4,22 标识顺序实现中的不同计算步驟 

第 一:拦 标识出 SEQ 的阶段中 IH 在被计算的值 f 或 i 在被执行的操作，作为示例给出的是指令 0P 〖和 

图中，右边两俨给出的是指令 OPl *_ ovl 的计算，来说明要计算的值，要将这些计算映射 
到硬件上，我们要实现控制逻辑 f 它能在不同硬件单元之间传送数据，以及操作这些单元（即对每 
个不 R 的指令执行指定的运算 h 这就是控制逻辑块的目标，控制逻辑块在图4,21中用灰色圆角方 
框表小。我们的任务就是着手每个阶段，创建出这些块的详细设计。 

4,3.3 SEQ 的时序 （ timing ) 

在介绍图 4.16 〜图 4.19 时，我们说过阅读的时候要把它们看成是用程序符号写的，那些赋值是 
从上到下顺序执行的。然而，图 4.21 中硬件结构的操作运行根本完全不同，让我们来看看这些硬忤 
是怎样实现表中列出的那些行为的。 

我们的 SEQ 的实现包栝组合逻辑和两种存储器 设备： 时钟控制的寄存器（程序计数器和条件码 
寄存器）和随机访问存储器（寄存器文件、指令存储器和数据存储器 h 组合逻辑不需要任何定序 
( sequencing ) 或控制——只要输入变化了，值就通过逻辑门网络传播，正如我们提到过的那样，我 

们将读随机访问#储器看成和组合逻辑一样的操作，根据地址输入产生输出字因为我们的指令存 
储器只用来读指令，因此我们可以将这个单元看成组合逻辑。 

现在还剩四个硬件黾元需要对它们的定序 （ sequencing ) 进行明确的控制——程序计数器、条件 
码寄存器、数据存储器和寄存器文件。这些单元是通过一个时钟信号来控制的，它触发将新值装载 
到寄存器以及将值写到随机访问存储器。每个时钟周期，程序计数器都会装载新的指令地址，只有 
在执行整数运算指令时，才会装载条件码寄存器。只有在执行_0^1、 push ] 或 call 指令时，才会 
写数据存储器> 寄存器文件的两个写端口允许每个时钟周期更新两个程序寄存器，不过我们可以用 
特殊的寄存器 ID 8作为端口地址，來表明在此端口不应该执行写操作 & 

控制我们处理器中活动的定序 （ sequencing ), 只需要寄存器和存储器的时钟控制，我们的硬件 
获得了就好像图416〜图419中那些賦值顺序执行一样的效果，即使所有的状态更新实际上同时发 
生， fi 只在时钟上升开始下一个周期时 6 之所以能保持这样的等价性，是由于 Y 86 指令集的本质， 




1 的计算。 
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也是 EH 于我们按照遵循以卜 原则的 方式来组织计算的： 

“处理器从来不需要为了完成一条指令的执行而去读由该指令更新的状态， 

迭条原则对我们实现的成功来说至关重要。 

为了说明问题，假设我们实现 pushl 指令是先将 ％esp 减4,冉将更新后的值作为写操作的 
地址=这种方法就同前面所说的那个原则相违背。为_广执行存储器操作，它需要先从寄存器文件中 
读更新过的栈 指针。 而我们的实现（图 4.18) 产生出减过了的栈指针值，作为信号 valE , 然后再闬 
这个信号既作为寄存器写的数据，也作为存储器写的地址。因此，在时钟上升开始下一个周期时， 
处理器就可以冋时执行寄存器与和存储器写了。 

再举个例子來说明一下这条原则 r 我们可以看到冇些指令（整数运算）会设置条件码，有些指 
令（跳转指令）会读取条件码，但没有指令必须既设置又读取条件码。虽然要到时钟上升开始 K 一 
个周期时，才会设置条件码，但是在任何指令试图读之前，它们都会更新好的。 

卜面这段代码是汇编代码，左边列出的是指令地址，图423给出了 SEQ 硬件是如 何处 理其中 
第3和第4行指令的： 


# %ehx <— OxJOO 

^%edx< -0x200 
轉 %ebx < - 0x300 CC <- 000 

# Not taken 

^ M[0x200] <-0x300 


0x000 ： 

0x006: 

0x00c : 

OxOOe : 

0x013: 

0x019 l dest : halt 


irmovl $0x100j%ebx 
irmovl $0x200 f %edx 

addl %ebx 

]e dest 

rmmovl %efcx,0(%edx) 


1 


3 


4 


5 


标号为〗〜 4 的各个图给出了四个状态元素，还有组合逻辑，以及状态元素之间的迁接。绍合逻 
辑被条件码寄存器环绕着，因为有的组合逻辑（例如 ALU ) 产生输人到条件码寄存器， [ fU 其他部分（例 
如分支计算和 PC 选择逻辑）又将条件码寄存器作为输入。图中寄存器文件和数据#储器有分离的读 
连接和写迮接 t 因为读操作沿着这些单元传播，就好像它们是组合逻辑，而写操作是由时钟榨制的。 

图423巾的代码表明电路信号是如何与正在被执行的不同指令相联系的。我们假设处理是从设 
置条件码开始的，按照 ZF 、 SF 和 OF 的顺序，设为100。在时钟周期3开始的时候（点状态 
元素保持的是第二条 inMv 】 指令（第二行）更新过的状态，该指令用中度灰色表示。组合逻辑用 n 
色表示，表明它还没有来得及对变化了的状态做出反应 4 时钟周期开始时，地址 ChOOc 载入程序计 
数器中。这样就会取出和处理用浅灰色表#的 addl 指令（第二行)。值沿着组合逻辑流动，包括读 
随机访问存储器。在这个周期末尾（点2)，组合逻辑为条件码产生了新的值 COOO ), 更新了程序寄 
存器 ％ ebx ， 以及程序计数器的新值 （ OxOOe )。 在此时，组合逻辑已经裉据 addl 指令（用浅灰色表示) 
被更新了，但是状态还是保持着第二条 irmovl 指令（用中度灰色表示）设置的值。 

当时钟上升开始周期4时（点 3), 会更新程序计数器、寄存器文件和条件码寄存器，因此我们 
用钱灰色来表示，但是组合逻辑还没有对这些变化做出反应，所以用[^色表示。在这个周期内，会 
取出并执行 je 指令（第四行)，在图中用深灰色表尔。因为条件码 ZF 为0,所以不会选择分支.在 
这个周期末尾（点4)，程序计数器已经产生了新值 OxOOe , 组合逻辑已经根据 je 指令（用深灰色表 

被更新过了，何是直到5个周期开始，状态还是保持着 addl 指令（用浅灰色表示）设置的值。 
如此例所示 t 用时钟宋控制状态元素的更新，以及值通过组合逻辑来传播，足够控制我们 SEQ 
实现中每条指令执行的计算了。每次时钟由低变高时，处理器开始执行一条新指令。 
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43.4 SEQ 的阶段实现 

在本节巾，我们会设计实现 SEQ 听需要的控制逻辑块的 HCL 描述。 SEQ 的所有 HCL 描述沾 
参见附录 A 的九2部分。在此，我们给出-些例 f _, 而其他的只是作为练习题。我们建议你用这些 
练 d 來检验你的理解，即这些块是如何勹不同指令的 U 算需求相眹系的。 

我们在这儿没有讲的那部分 SEQ 的 HCL 描述.是不同整数和布尔信号的定义，它扪叮以怍为 
HCL 操作的参数。其中包括小冋硬件信号的名字，以及小问指令代码的常数值、寄#器名字和 ALU 
操作。闯 4.24 列出/我们使用的常数。按照习惯，常数值都是人写的。 


( 十六进制 ) 


nopffi 令的代码 
haJt 指令的代码 

rmiovl 指令的代码 

irmov] 指令的代码 
rminovl 指令的代码 
rnmiovl 指+的代码 

整数运钵指令的代码 
眺转指令的代码 
call 指今的代码 
ret 指令的代码 
pushl 指令的代码 
popl 指令的代码 

的奇#器 TD 

表明 Sff 寄存器文件访问 
加 a 运算的功能 


INOP 


1HALT 

1RRMOVL 




IIRMOVL 

IRMMOVL 


IMRMOVL 


10PL 


IJXX 


1CALL 

IRET 


IPUSHT . 


[POPL 


REST 


RNONE 


ALUADD 


4-24 HCL 描述中使用的常数值 


选些 位描述 的是 ffi 令的编码、寄存器扣以及 ALU 搡作 t 


除了图4」6〜图4.】9中所示的指令以外 f 我们还包括了对 m>p 和 hA 指令的处砰。这两条指令 
都是简单地经过各个阶段，小进行任何处理，除了要将 PC 加1。我们+会介绍 halt 指令实阽上如何 
停止处理器的细节。只是简单假设当遇到 1 CO de 为1时，处理器就停下来 4 

取指阶段 

如图4,25所示，取指阶段包括指令存储器硬件单元。以 PC 作为第一个字节（字 CO ) 的地址, 
这个单元一次从存储器渎出六个字节。第一个字 V 被当成指令字节，（被标号为 “ Split ” 的单元 ） 分 
为两个叫位的量 icode 和 ifuru 根据 icode 的值，我们可以计算二个一位的佶号（用虚线表 小)： 

i ^ tr ^ valid ： 这个字节对应于个合祛的 YS 6 指令吗？这个信号用来发现不合法的指令。 
need ^ regids :这个指令包括-个寄存器指 示符字 V 」吗？ 
need ^ valC ： 这个指令包括一个常数？吗？ 

让我们再来看个例7, n ⑽ Lregids 的 HCL 描述只是确定了 icode 的值是否是-条带有寄#器 
指示值字％的指令。 


too 丄 need_rcgids 
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it & d _ in [ lELRteJVL』ICPL 


IFUSHL , IPOPL P 
riliMCVL , IPMH 07 L , 1 HRHGVL ) 


Ajn rA rfi vaIC 


Bym D 


iR+fffli 


4.25 SEG 取咁阶段 

字 fl. «竹，生 _ 丹个卅令 yi| 


ti p : ft 秘 iff 时 ■ 

M _4 W 

^ * SEQ 实现中怵 f ri 6 ri_vdC 衿 Ha 氏磷,. 




迪阳 4.25 所 # 


- Mfft 令存 tt 器中 * 出 的 __F E 个芊节 fi： 衝存器衔 f 符苹节麻 If 数宇的组码 

ft 与办 4.411(1” 的*件单元会煢纽3|■宇货,将它 fUl 入寄# B 字段和黹截莩中，含 


_ P | f K 的帘号 

祖 A I 时， f 节 [ 被分开裝入寄存 Bffr 示杵 rA 和州中. S 則, 这鮮个字段会被 i 为 B 

( RNONllJ . 扣明 ii 条南含 没有撫明寄存器* 回埘一 下（田 u i . ■!£ 蚵只有个寄存 B 悚 ft 数納指令 ■ 

■ 芦节的另-恃麟设为8 ( RNONE) ■瞳， 我 mBUm 号 rA 和 rfi 聲 t 龟敏 

⑽■翻細游卵，如姻不触 iJ 5 网任何 f 6器 
vaJC , 据仿号 


兮为 “AligiT 的申 .XU 产生常 ft 字 
4 來产生々水：，要4抿据宇 1S2-J 來产生 t 


<r 


__咖的 tfu 窃么根据宇节1 

Pf ^5l： }#( inFfcmcn-ur) K# 卑 /t 機維3吋的 
产生 ffl 埽 ^alRa *t P PC fll ■rt'Jjcgbds 位 


W 及两 m l j need_irgLds ^fl hb^|_vbiIC (ftM 
以及 》 cdv«ICfflM _ 增扣 器卢 生值針 r+A 、 


r 


if 肖 flfvMIts 


ffll% 玢出了 SEQ 中实 W ■解科利丐回阶 暖的！ 瑚的伴细怙况 

它」 l]ft 軀访》»存》文件 + 

帘存器文阡苷叫个符口.它发持冋时 进打 两个逢 <茯戏 □ 

M ±J _ 每个翊 LI 都有地址唞违掊_ 地址述 接是一个寄存沿 


这利个阶 sa ■ 在一起 1 _為 


b 上》 和网个 1<4鴻口 


A 


ID 断钕街 JS 孩 5 组 32 报饯 

以 fl: 为寄存器文件触出¥ ( 料在I賴 L 也可以拃为它醜入乎 （ 对1堪|_|來说). 

内个读斕口的地址 _ 入为挪美和 skB. 而掛个 的地讪 _ 八为 tigtA 虞 ] 如圯，如米某个地址璜 

at 的 值为特 ftfci^a (RNOME), 扪在明不 f f 访向肯 々 S. ■ 

棍翻令 TO i_c 以及寄存純..|:禮 m*irB, 111,2* 朗的叫个块产灿_个州的寄存 
■文件 At 存 ftioj w$fltn>ui^ £明雌 M 个寄存 vmp^viiA f 費 瓣霣咖 £隹_ 于推令 







类 1?的， 4 n .14,16-1 4.19中_« 阶殴 m — 中所 本 3 杵芾脊 这些条 Fliffs 鬣含 到一个 itf 中威拊判 
卜 Iffi 的 ska HCL M 【回想一下 RESP 甩和平的 1 T 存 S U)h 


ini srcA 


leMfi in ( ISHMOVLr : LRMMOVL 』 lQ¥h, IRJ3HL I 
iofide ict I Ilt-PLi IftBT } : RESPr 

n r c r ^ gi^tcr 


r A s 


P 閲 ME ; M 


v 柳 _E 


构 1 A 


抑旧 


tmxn 


itiJE MM 




in . T !： 




rA 


4.26 SEO 解 码杧 写回阶段 

s 令 7 P 8 ip ^« 11 |*^ : 牛« 1 ?»变#««{的^+(*]* 的 wfrafeiR 杵.从的 fl 成为惟 




镰习 B 41 S 

寄表明应 《 请啷个 寄件界 产 i _ ift T 所宋鮝的 d 如困 i . ifi-ufl ^ 

的 HCL 代码， 

寄存暴 mdnE 表■写嶠 cie 的 3 的*存機.汁 mil 来 WilwiE •放在 I 里, W 图 （1 ㈣ W 

中巧问阶趿馆一个沙 S ? 所示， G 合所 IT 不 H 撤令的 器. 就得朽下 S 的也 (E HCL 搞述 t 


段豕二行+所示 ， 写 


\ tc . 


ifit 咖 tE = [ 


Iced? In { IPRHOVE,. IIlMOVLp IOPL 5 
icode in { IPUSHLh IPOPL s I CALL , I BIT } 

1 : (yJOKCr t DniJ ^ t n«d rcgixl tr 


rEr 


■a 

r 


REEP ? 


■ 

m 


拣习眧 4 .ie 

寄表明苒螭 n 玷的丨的寄存》 3 从存钟異巾读 A 軼的值 valM 柙战在孤 Si 永 
4 .]#- 4 . ⑸中写田斧放單二个 # 镩醉示，也 tMM 的 HCL M, 


练习暉 4.17 

只有 popMS 争会 F ] 时用到年存 S 夂件的两个耳 4 u b 时十柙争卜£和：:两个 Jji*cr 
会用釗同一个地社 4 也是萁入的14 拫不 PJ . 为 T 解决达十冲突，成#1必珀对两个篇优 
先 ft , 个 fl 麻内科+写鴆 u 華试 ra 对一个寄存 S 进佇耳时， A 有蚊 S . W ：*_ A 4 io 

上的3?才会遑 . fc 为了实《1练士 4.3 妗行为，等个堆 Pit 具有皎高的化先竓呱？ 
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执 1|»段 

技％ ■阶设包括 5 T 米 /逻糾 电元 < ALU ). 这个学-元 

tup m 


B:h 


报锔 Mm 格号的设罨 . 对毺入 liIilA 

ADD , SUBTftAUT ； AKD s ^. EXCLUSIVE OR |g If , 
J (1 IBK ? T 所 f ■:. 这些败 ffi 和捽制佶 兮赵由 兰个控市 I 块 

产生的，九山的 _ 出裁1 

作闬4_ Ih 阐（| p 中 ， 执行阶殿0第一个步屬给 

出的就莱钳令的 AU /汁算- f _ 出的拢作 feikB 
在 Ulin , JlfllM 伽 A , 这忏 I 力了保1 | 

^ ia«i vase , mm 以 # 到 ■ m 据掩令的类軋 .a 
的值町以是成美, vdC . 戒玄 ft 4 3(+4, Rfc ® 請 
似 ffl Fill 的力式夹表达+生 _ haA 的》剌块 ffj t 亍为 2 


«： 


ALU 




nil 


¥ 




■— 4 




Shjf 


vniC s^A 


E = 


作令是 


TUI 




aim seo 执行 ms 

■ U.LJ Si 为嚎 ft : 达霄 fi 令执行憾作，《么作 Hiatts 

PR-K ALUffJift , fQfll ^^^ RUl - 


P 


int d,JljA r J 


icode iti f J ^ ftjp ? VL r iopl 

iibdE in f IIRKP/L r IRHMOVL, IMRMQVt ] ; v^jg F 
i^ode in { ICALL , IPUSUL J « -4； 
isode in i I SET』iMPt | : 4 : 

f Other ijiatrucli ^jis dsn J t need ALU 


: valA-r 


堪习醞 

根 4Sfi J.lh- 


令拭扞於欲篆一步的 * 一今构 作权，写 ik SEQ 呼伟号 duR 的 l_CL« 述 . 

mAW 现们可以作为加珐诮来使坩 (1^ 不过 ， if ?- OPI 

战们希 i 它 t 用指令 iftm 字周 f 嘛丹的 燥作. 闶此，我们可以辦 ALLJ 拧制的 HTL 推述与成; 


int mlyfuil 


I^ddc 

I i AUIAOPI 


lOPIi = tfufl ? 


_■ 


拽 ff 硏段还乜括条件码哿 # s. 卑次运 ffst. a 们时 au ；® 会产生三个句条忡码栢关的柄 

号 — 象符圩 _ 湩出|不过 . 我们只*逍生执 ffopi 指今时才设 1 条件码，囡此找 ffi 产生了 -个 
納 來榨制 是古该 SE 新条件 

le&dc 3 n { IDPL ]; 

知号为 ^ rad ' 1 时堆件妒元会战* 一 f 指令趄将导致珙 (4 (逸抨分 t 》_ 还是会辦绅 F 。条棺 
令 t 不选择分支 h 弁产 Itfi 号 Bch * 只 f 气搰令坫一条线令 （ kcde 爷 fUXX l T 并 Ji 备袢码 

w 值《___ t 明资 戏择分支 (参里 _ iii > n 

«f j 辨柯略这 t 单元的 a 计* 

mw^i 

如陶 * ■ 邡麻示， 两个拧 制抉产隹存地 hi : 箝存健 
S_ 入款被 <h li7 i^m S 外两 个块产生衰明应该执 ffift 嫌作还是 s 搶作的使 《 倌号，当执 


bgcil 鼉 et—cc 




一备 坩令4■会 导食眺 抟. a 
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行 饿_作财, 敷爾存 IIS 产生 ffivriM 


flWitiP 




㈣ AP 


mi 


valE mbIA vaJP 


4 . 2 S 5 EQ 访存阶段 




■ 


t 承个 fft 令类甲所: t: 隹的存锘雄搛 f| 挖 HUJ* 〜啪 A 吟的 tfiJK 阶段中绘出來了， 
收读的地 It 总饴 WE 成 vbIA. 这个决用 K€L mMM -： 

Int m 

LcadE in \ rRHHOVl，, IPUSHL, IC^LL. IHftHOVL i 
Li-ndc In I IPDPL, IRET } i val~ 

s Other inELiuciionst dan r t nr^ ^ddr^s 


^□ar 




绦习級 4. Id 

fti ■田 4i$- 围 <4所辛的本 fi 相令的存 wa 揀作.我們町以看到存钵具洱的教#总是抑1^ 
或 Vflip. 写 itSEQ 中优号 

我 If j 希 ® 只为从# w 34读轚摒柄指令设 霣校 制佶 f 用 HCL 代码衣 

booi fflLetti.feao « icwJff in ( IHM»D-VLh IPOPL* Ift&t }- 

绦习 M4 

我们希 S K 片南 4 fid s s 霰慟的相争谈直柱 刻竑专 
MCL 代鸪 _ 


mem dm ^ HCL R 4 


write ■写 出 SEQ 中 ff 干 nwm_wii1e 




-M 


由新 PC 阶段 

与拽} 中垃后 一 t 阶 段佘产 生稗 mil 数器的飪 I ® (®IH 4- S >- _圖4.36 〜 扣中缺后渗砷所 

^取呋的布甩和疋否 ® 选驿紆友， m 
个逸 押就垲 r 


: nj 陡廹 vale-. vWM 邊 viJF, .R] HCL 來描述达 


im new_pc 


I* Csi K Use InEtrucilt^ 

icock 


CCTT - Stfl^t 


ICALL l vsiICj 

Tak&n branch. Use instructconstant 


SHBI HK 


iC 0 >Aft 


IJXJ! &4 Bcft : vmlC 


B~ 
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i Con^pj-eti An RtTf a-nfftruct 1 m* tis 在 v 旮 】 from st.aick 

icode 

# j e r Use iftCrimerztiKJ PC 

i !： 叫 rp«r 


l^ET ^ yalMF 


Jr 


m\C 


vbF 


seo aifr pc m 

Miff ihAHTF 一 tPcmi/U 


^.m vut 

Sfctf 小钴 

塊 rt : 我们 已托浏 器的十宄筘力设»,我们吋以石钊. ifi 过将汍行 每条不 网措令 

mm 的歩《细缘成一个统一的流裎 . 就可以用 is 少 t 的 f 种使件咕元以及一个时 w ■來#制 M-ffw m 
序1 a . I I 

令 ■! 取刹分 义彔件产生适 _4 的拎制仴吁 

的问 l ! 就赶它 太侵了 E 时44必戒非莳嘴，以使 f 号期 A : —个周 IW 内传彳|辽所苷的阶段 
iJ : 我 U 來希我处 rn ■条 m 梅令的闵 f , 在时钟周 明起治 Jf r 从 E 新过的 
中 ft 出 柑令， 从祚存器 ifMMS ： 出 tt 折針， 

述换从中咬出返回地址*所有这一叻都赴《在这■个周筹 j 铭東之_尭 I 5 L 

三义知■丈 觇;? 法不 ( H 壳分利申坡件 ip 瓦，因为梅个单元只在苹个时钟的一邢分叶闽内十被情 
我扪会# 角引 A 波水纨枇获押史好的性除, 


控制逻 W 就必氓要许这些单元之问路由愤兮 ， 汁枨裾播 


HI:Q 


■■ ■■■■■■■ Htl , .从術分存玷雅 

ALU 1喊小栈指计.为: T 得利杓乎 计数斟 的下一+坩, 


4.3.5 SEO +: 徽新安排计 I 阶 ffi 

^ 为到说水战化的改计的一个中 (1^1, 找们枏 llift 列这六个价羧的繼 PF . 

哎^一 个⑷明 JF * fi 时 汍肝. 而不 ft 结长时 Mtf 产生的 StfflS 设计体力 mb 
了基本的 sEU 处呢 »* 这种 ttt ftb 去 Ti 些奇怪,西为碉定新时托慨济埘|&}1!]|执抒阶旣中的分重 
条件威#谈访存阶 段屮 的返回他 t 对 1*1 掸令来说>_ 

m 4 W ^^. 我们 能移动 pc 阶段，使得它的逻辑 ft : 时忡开始时活动—计 t 安前伟令的 
^ 然疠这个 PC 的鑛0以_入利取衔阶段，_下的钍珅满和的浼讲过的 -- 样销镂 jtfrJtt.m 
明 tt 家之 JJ . 组合通 W 会产生计 I 新的 PC 值析 霱餐的1 所有的值号 
RI 中是用截号为 ri pSuu " [代表 

3 f 街令选# Pt : ft ■而不 ft 为 F —条坩令计箅 史新 了的 PC * 

啕 43 丨给冰 r % g +«! 件的一个 I 为详抑的说明， tft 可關到， 它包柄 与我们 ASEQ 中 
的 UW 4.2 I ) 一朴 ft 硬件单元和控制 』 t 只不过 ■ 

布存骞中.它们的私号是它们所深#的值 bV 向加± — 个前线 y 坶 


pc 阶 


因》它犷綱 


PC 


这 瞾值放 在一炸海存眯中，4 
pc ^ m ^ rtHc ") 的力_术灰氺的，现在 PC 崎鞭的任务兜成了为 




還树移钶丁成邡，从 iiii 二条指 争得科 的结出 


(代央 


previDiis ") 






2&) 


yalE, v 










地•戰 « 


valE 


Alf 


AlK aluB 


val^ B valB 


S 4 


bucA , srcB 

d & lA , 咖 a 


A 




■ 诚 1 C 


i# 


IP 


P 


rA f ,rB 


1 C 


PC 






s|fc 


PC 


mmrn 


pStAlfi 


用 4.30 的抽 Jfeas 

埽 ft ： -个 A * a 化的实用， 


■ 在 fWW I«JII ?Nft _ 计算的 ■ -iWSSWtt 





its 逋体弟 MW 
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m 


ft 行 i 






ft Si 




■中 Mfta ： 


( h :) 


0ltod 吻 Bfh 仲 IM pValC pVaiP 


(31 SEQ -^^ - - ^ 


叫 T _««号 


対控制 ii __ m _ 修改就 足1 新圯 .sa pc ffni tr t 它彳 1 用以贐 m 状态值 _ 下 ii 这两个幽我 
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明 T sey 相 sEQ+m pc 诗雾块 ■ 


A - 


m 


it 




mA 




PC 


fc 


pc 


Ekvn vRl[ h4lM 坤 IP 


柙个块 4w 惟一 的闲蝌 at 超- 将保 4 ttt 押器状态的舟々埋从 pc 计界的后 im 稃列 

rrtiui , 这个柄 f J1 一柙裉常圯的改进1採为免路 f 定时 重企时 改变/一个系 

统的状*衣示， iK 是并不改变它的 Itaj^fif •个系统 中祚个 Si # 之吋的 S£iiL 

K : 诈的 HCI -描述®成了； 


i m: p t 


s C^IJU Wfs i ^^ Crucci^Hi constant 
pi code == 

# T^kcn bfBnth^ Lise instruct ldtz con^ t mnt 

f Compl-ecion of RET inEtrs € tl \> n , Use vaI ue from EL^€k 

pledfie 

ft Dcfnulti IJi 

1 i pVfliP ： 


: pVa 1 c ? 


I CALL 


IJ^X it plch 1 pvalc ? 


n 


IR£T = pValHj 


a .£ 


nt ㈣ Pf 


j jicr 


削龙畀时 a . 3 ■节铨 net 袍 a , 

劳 Hi SEQ + 中 fePC 在■里？ 

SEQf 有一个很+任的特色.鏵 it 是逄有破件 f 存*朱存 i * 牡碎錡数相反，4_枢■从前 一*■ 

横今保存下東的一费状*偉4 軋** 地计算 PC 的， lift 是一 f 小士的倒试，让，我们〒以以^种 
A 1 SA 醣含暑的 it 念«相不 再的才 式来实 SlttltB , Jt 要蚨拭行《急的 Mift 租滲. 
我们不翥要桉戌狂序 BT . IL 的故*表明崎方式來吋秋态 it 行 戈要处 asn 蚵任 意祖序 1 野免 
时 杖态彳 《*, 任痔什歡 a ) 产生正磯的 i . 在 w 建洗本域化的设 计中, 我们金更多地使 a 利这条 
Jcpi . s .7 tt 搞逑的礼序（卻1^«€||^)«埤现技|^ BI —种定全不坶 A 租埤中 tiff 年妁戈 
4森执矸揃+. #这一® ft 发样料了 


4 . 4 流水线的通用原理 


介成陶 tti ■一个浼水浅化 m 让我们光來 ft # 泷水改化的 f 蟪的一畔通唧枓件 

对子 w 较作 餐疗的 祖务线 ti ： 作过或#开筘通过 II 功汽车捵诜哎的人，都佥非茁》悉 
也流水线化的系 a 中， 待执仃 m 任 # k _ 分睬了若 r 个袪众的阶段 h 在这些 
阶_饵私掛供沙拉、主菜 I 亂点 以及 饮料， 4汽车稿洗中，这挂阶段旣拐項水和打肥电. m & i , ± 

通前招会 fei 午：!； 个呋荠 r 时钟过 积线_时不是赛方爲-个闲/』龙或 r 所有从头至 m 的过 
押才化 F —个开始，在:一个典叩的13助《厅浼水线上> s * 疚甩相冋时囁甲绰过 各个阶 s , W 1 使 (ft 








：(W 


们件不离 i 某钚* * 对汽 I■■消洗载埂 p 当 ws_siiw 从喟本轮段进入播洗 阶段时 F r» 

透入吻水阶段了， 讪常. 汽+■必閱以柑 Rm « ltiffli ± 这个系统 ， 《免撞车， 

淹軟钱化的 一个1 裝恃性 ftM 坩 加1■系 铼衲 fr 也* iLhrw^pgO. 也從垃琢位时问内 振务的 》 
输也 不过它也金較阪地增如执行叶间 OnUiwrPr 也竣 fti 务一今_户需要的时 ftU ^ 

w 厅钯的一个只* 赛 沙找的_苒，_很快通过-个 it 准水线化 m 果铼，只在沙拉阶 sifHi [停 f 
岛在派水找化的系统中，这个 啄客如带 W 田 ft 接 MMii 阶段铁有可拥枏致其他 Hi 苒的狼& 了 * 

4.4,1 卄 I 流水钱 

让段们把往意力放到汁 ff 淹水线上廉，这里的 ― 威客 ~ 就 1 衔令 _ 每 t 阶段恢行相令 W — 1? 分。 
阁 02 给出了 • 个很简肀的尊 ■ 塊水线化的 饜怦眾 mT^t^ 由一昼执行 it 算的逻 to 以及一个保存 

ilff 婼期的班 frffi 纽成的，时钟拧制在符 f # 七的时间间 bite 栽格存 iUL CD 
器莸£这杵时-个系统_ ffi 入|3?号1从 CD 表曲汶出的位> ^ fii 邡分对这些位迸行_码，产生茳袖 
佶兮 & M 屮的计 ft 诀 J & 用拟舍逻 辑獻实 W 的. 迓味# 堉坤佥穿过一系 K 递樹门 ■ 4时_ 的琏迅 

之后 . 蝙出 说成为了输入饷某个 甬数， 

A ) 蟣件= 
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PS 


i 吐鼉 ■118 
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If 


0 i mm 


□pi 


ops 


0 P 3 


阁 452 非深水线化的 tin ® 件 

ig 个] a ^的* 期内，_«&犟打旬必入齊町!*1^ 


在时 序逻 掛设 ii 冲. 电路证 迟通：歧撖_ 秒 （_0_丄 閔写成 u ps h :k m 私 iqm 抄，束计 
ff 的.在这个树 户巾. 而如现寄存器閉也^： 还焓出 r 一 
神时序 札称为 A 水蜱 a tpipeline digram). 在阳中.时 N 认 S ■向表流动，从 h&| 卜 '写嗬 ■扭抽作 
£扑此 秣为 OPU m UOPJJ. 实心的长方形 我 矛执厅 这邙搡作的时 n 这个系 咪中， &开掛下 
十眯 你之坷 说 .51: 斑味 时一个.闵比.这些方_在里 ft 方向 上丼没 有柏?『:咿 f. Fill 这个 公式给 出 
了运什这个#统 韵城 大呑叱擊』 

HkHighpuL : 


hspCfalicin llJUI ^ u ^ Oiid . 

(20 I JOOjpi^^cond J n ^ D^ecorkl 

拱们以秒乇兆次 1 ft 怍 （简 写成 GOPS >. 也沙十1次#作，为 離位宋 描遲吞吐1,从头 
教 ft 执行条 柑令 所呢要的时洲 _为拽行_内 （ by eB ^>, 办此 i 统中 . 杈行时恂为 32 Dj 〜 m)t 


mxnn 











想镢筘 我们的 I 魄的计膝分 Jft 三十阶段 ( Ah 3- flTC ), 毎个阶段葙掛如 M 4 J 3 所 

然后冉各个阶 K 之词放上汍本璣寄存* < p ^ lki Erc i _ c ra >, 这袢 毎个枞 rtfli 会按昧三步妗过这 
个系 St 从头 flit 需要三个圮 I ■的时钟珣期 + »图433 十的 洩求线田 听示， 只® C ( P ] 从 A 0 t 入 B , 
就耐以计 0 P 4 迸入阶段 A 了，依此类椎』在喼定状态下_ 5+阶 KW 敁该逛沾功的，每 t 时钟阐 斯. 
—个搛 佈戽开系统，■个新的迸入《从说水 栈明中 ■爾三个时钟同期 t 能#比这一点,.此时， 

B , 而01^圮在妒段九.在这个篆统 中， ftfll 将时钟坶_设办 Iffik ^= l 20 ps . 
辨刊的# 叶曠大 约为 JUXSO *^ ffl 为处邐一备嫌作 ffif 1个_ 钟周 明，所以这备浼本峡 W 执跦时 
wit ^3>： iH ^60 ps , m ^ mmm ^ ir ： bjm . 12 ^ 2^7 n . 4佾是增加 r — 些埔付. 
以及执行时间 w 少 : iJite (撕 m = uih 执行时 hi 子捫 加的汍 水找祥存樣的吋 ffnfffi . 
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0 P 2 
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E ^-33 三阶段淹水绎化的计 W 硬件 

EtHBli 分 A 三十 Wft A t tiVC . - t 叫 的 ilft _ 电个《作 SDiffJBa 

4 _ 4 . 2 流水钱提作的详铟说硝 

为了见 好地押 W 汍水线圮怎枰1〕隼的，让提 1 N 宋洋细##撖本线汁 J ? 的 时啰种 拗作 
出广时 面扭们 f 尹 Mm j 阶段汰本线 £ fflU 3) 的1水技 ffl , ftlliiR 术线閩(:方丧叫的 W 样.汍水 
哚阶段之闻的挽作转柊是屮时钟帘号來校切 的. «|A i ! ii ^. 倌鼉从 0 升至 I , jFSfll 水线阶段的1 

- tliiltt . 


4 J 4 
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:■■画 L 嫌、_匿« I 


BJra 


I . M 三阶段冼水线的时序 


Wflff 兮 fl 上 flitiffM Bft 从 一午 S HF-■Hftft 











之谛，阶玫 A 中计算的枞作 0 P 2 的也 已经到 达第一 t 濟水线寄存器的输 A 『 ftift 该布 # S 的状态 W 
箱屮还保钸为慟 flr 0 P 1 在阶段 A t 计 JI 的值 * 味作 OPI 在阶段巾 itW 的值 d 於到込觅： 个龙水 
吱搿參 S 的螗 A 。 亡时钟1；九时_这巧醏入掖加蕺进流水线书存此，戊为®^器的偷出 C 点 2). ：!■ 
外_ _ aA 的镝入 K 设艽成开始嫌作01>3的汁穽 * tftA ] 怙号传 《溻 过各个 价&_绀合 ( ㈣ ‘ 

It ® 田中点 3 #的曲线化的 S 阵面 < curved wr^GmO ft 41的观 ft - 倌号 n IttW 不向 _連率 iiit 备 

个不向的恶分*作时糾 3 M 之前， ( M^k ^?釗360时彳中上升的， 
各个働 f 会 f 进杜过一个流水线阶段. 

从这个时疾水线找珣的描冰中，我 fj 可以抒到減淡时钟 Wff 不亡思 IHM 水线的忖心忆兮 
ft 播到浓求钱 1^ ■的输入,但是 aa « 雠上 t 时才 会** 害 #«的状 b _#®, witt 时 t 中 y 

ak ^^ kmm ^ 惝叶睢念乘不及通过组合逻*^ ra 此:！ iw 柙上 jm 布々找 
入氐不 ■合眭的 ffiU 

褓斟我扪尉 处 1! H 的时中的 i ， t 论 $>■ 泚们_#針那拧在钳合逻爛■块之间采明时钟舟 
■ fH 的简竽机«_ :延明 榨制汰水线中的揉作流 r 闭#时 WHH 1 SIC 始的 上升 
会通过典水线的各个給段，不金相 互千 忧. 


I - 冋的抉作泛 


^-mim 

HUM 屬承的系统中.和前 Si — 样.我们将汁钵划沙为丁』午阶玫，但1迪过达举阶 filWii 迟从 

5 UPA I 5 Q P 不育 、 ifiiilJff 阶段的 300(5 | 

E 如本水线阁太明的那扦， 衽个时钟呷 初> 阶段 或槲会空用 t _ fi 色力 抿衣 

s # 于沾幼状* , JM ] 必消.柙时钟周斯 ia 为 


小过. it #〗 尨圩 时叶的逋串圮山趙懵的阶 


E- 


^ ( ph . 扣阶段 C 会空闲只有阶段 B 

I50+20ii]lf)p«, 足吞吐康为 5.SSGOPS* 坍外 ， ill 于时钟州明咸 1 # J» ^kUW imillf!l：' Slllp« 
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所 _ 件. : ■ sisft ^ a . p__Mis 
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a^-sio 



4.4.3 宠水线的局限性 

[ 4.33肘例 f 铪出 f -， 个许 ffi 的 » 水战化的 系钕. A ： 这个系统中 > 我 IN 可以 Hitff 分成三个相 I 

Em mm . 斛个釁段 it 势的 B + ii 足_ 来迮辑 •要时间的三分之一，+丰的是.还有其讷一些@ 

篥会51蚪偷漱线_«串， 




4.3 i 由不一 M 的的段 SiEjfta 的*氺线 袪柬的 feftl 性 
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■村坳作珙诽#來说，轉展统卜划分成_珙*1有相同 玷近的 _段1|一个主嵌的拢战_通常, 
t 珅 m 甚理硬元，® alu 和 ffffl 器， ft 不® 拽勉分 成多个 siaR 小的栌兀 的. 这 
们 it — iu 平 ft 旳阶段#常闲] Ife 。 在设铸钱们的随水线化的 YflA 处1雎中_我们不会过于关泞这 一 u 
次的细 KV ■ ffl ft 理#时序优化在实 Ip 系统设11中讷霣 ff 性还1非常擊 f 的， 

*勾_«：1 

戳设我们分斩 a 432中的组合龙辑，认为它分成6个块.浓次 fri 为 A — F , 砭迟分劇为 
m, JO, HK K), 70 和 I0|M> 知 fifl 畸 1^ 


50 _(riP 


m 


l 6 p * 


^ErBirHtFH 

KH 


在这也 》 tSl 桕人洗水 At 寄存 S , 就得到这一试计的 4 水线化的教表 ■ 根41在呷 Z 柄入 洗水找 
苓存》, £■出观？ 同的洸 水戍深 _ t 彳 1 1少个阶 * ) 和巟: t * 吐 f 的 ilh 褽设每+洗水残奇存 S 

咏14疋为 Sltp ^ 

A . 艿插入一个寄4»_冉釗一个均阶段的浼水残■麥使吞吐量 憂欠化 ■该在囁1抽入寄存異呢^ 
黍吐 t 和执行时间是多少7 

丨要诀一个工阶 ft 的 A 水竦的 ft 咕量最大化， ittf 两个寄 4 S * 在暉！鬼？恭歧 f 和执 fr 叶间 


是 


C . 鮝使 一 个句阶 段的 A 水戏的&吐壹最 大化 — i 食将 三个寄 4 S 柚在嚀 _ t 呢？吞也 f + r 执#叶 W 


足 S ，? 


■X 要得網一个呑呔量 ft 夫的设计_ i 少要 t 几个阶 A ? _速4个4计先其吞咕 f 和执 ff 时 ft 

a * aiiK - 收益 


| t |4 J 7 说明了汍水戌忮木的—个《 阳性， ffill 个 MPt 1 . It 们祀 汰1 分砹了6个阶段 

阶段黹罾50|»* &播对阶 段之 w 插入进水线寄存*就扪到： r 一个六阶 h 犰 水线. 这个系统 mw ： 小畤 

nm\>l $ lh 20 m 7 ^ i f # ltt . t.Hj 14,29 OOPS * 国此. ii 过将流水钱的阶既数如佰 • 我们枏性 teffi 
岛了 J 4 


个 


&#! 我们构 _个 ft 射垆的 苺了 但起 if ) 于通过汍水残布 存眯的 

S 迟1吞》上》丼没有加 ffi . 这个 Mig 成1诛水 线存吐 1的一个 ffl 约 a * s , 在我们的新设叶中，这个 
m 占到 t 霰个时 钟曲期的28.被， 


13=1) 


埂代 it 珣抖为 r 撝 A •时钟 s 乘 . m f iR^rn us 或史多的阶段 ,) 淹水线 • 处件睢设计昨将增 
今的执行#分成很多#常简嵊的拔諝.这忭一来拇个 f :-® Nijm £ Jis 小 * 电醸找> #小心地 s 计说 
水作!® ■ 憷典延迟尽得小.芯片设 M ■者也必翊+心地设请时 i 4 传播网络，钬保讪时忡 Of 
个芯片上同对#4 1 ■ 漸有这些都 慝设计 而速1处开器 ii 临的 | ft 故， 


1习松 4.2 S 

土我们 来着看 ■ 4 .32中的4级，将它划分成任： 

果蜍 t 洗木域寄冉 a 的延迟为呑吐 ■* 杓上限是多少呢? 


个浼 水找桷 我，每个阶坟 有板科 的延是+如 
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4.3? fRJTtfl 造戍的 .充 本技 PS 术的 璀性 

Jim 政分 v, 胄存 a■ f^i 运的 st 赶 _ ； a^r 一 t h 


44.4 带反 tf 的邃水钱系统 

pjnt ^ ii % 狀们只， ts 这#一神篆统.其中构 if 流水线的对 a ： 论是 n 车 I 人 I 
相互 fflift 宠企桩立的.碰，对于® 或 Y % 这柞孜 厅机! SSffm 系统朱说.相邻册令之 Plftt 

可能珐相 关的， mu 芩 虑卜而 这个 vs * 指令序列： 


iiiMvl S53 h t_l 妇 a 巧 




s 祖 Weax 


3 


t 


s 


vl 1X)0 tCt^bw I H ledx 


mr 


fli 这个包含二条揩令的序 5| 中 > 每付相炻的掏令之刺柿有歧4 相关 (^ d ^ iid ^} g 用茚阄 
妁寄存眯名宇和它们之间的衡头 Jfc 表示， irmH 推令 <«-! f ) 将它的结 3 k 々放在 
ddl 術令 <第二行> 隹攻这个恤！ frfaJdk 指 令将它 的袖鬼"皎4知^中，__|衍令 <笫3 行） 
赛读这个 ft . 

逬一#相关 |||4|tt 令押叙流边成的 Wl 序 +|fJt <^qucrriiELl dependency !■ 來 fi #i F 固这个 Y86f& 


令序列 


1 lODp - 


avbl iedx r %ebx 

jnfl t^rg 
imDvl ¥Ld p i«dx 

jtnp- Itxtp 


6 


targ ® 


h^lt 


行 ）_^ tT — 个柁 刪 相夹 (. rantr ^ dcptitdc ^^, 因为 MIH 试的钴泶会决定_1& 

执行 ton 描令是 irraM 榭令 f * 四行)注是 Wt 播令( I 七行)，在我们的 SEQ 设计这關关 

如刑右 边所示 * 这费 i 饿将史新的岢 存莽值 叫下付这到寄#潘欠 
件，将新的 PC 值传遲铒 PC 制 f t 

围4»寧锏说?1 了： i **«_ 入贪有1謂 sa 的 * 统中的 ftii , 義原来的系统中,彆 
个找作的结果柿反油给下一个故作_流水钱 ffl fBt 畎说明了这个情 K , OPE 的结 纸成为 f ) Pl 的 
格 A f f « it 类推 ■ 站 11我们试阁将它耗换成一个 ■•阶 段线 <(：), 找们柙 tSti _ 的 fF 为 * 知 












. j 4_3$ 由 ail 相关违成时流水线技术的肩_性 

uj 轉豕 ft (o ifmh^ r fti ] s 警 r 它 mfli 含疋 ， sis % 

# 水 _!(| 和 |3>4 噘把 . 寒 . 


c 】mi ^fet»mzm«atft 


fflnm 


fl^n 


M *®， 


:冪 
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fi 
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4! 
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i=rw 


uj #* 3 


“： ■:』 Hi - 


ti 我求 n 和 


DPI 


OPS 



mmm to i ^ opi 的»果 _ 为 o « 的»入.为了*过 露水钱 《术加速菜 (r &们玫®了 

果统的行 

9我们轉癱水婕抜术引入 ym mm ^ ft 们必 a 正癀 处库反 m^ r «i oa 

中例改芰麩统的行为是 v 可抟收的.我们 必迫 以某种方式来处翊.钳令间和挖斟相关， 
以 t 符到的衧为与 ISA 定文的傩卑相神* 


*) «件.嫌:# itft n ■反曠 
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4.5 Y 86 的流水线实现 

我们终 T 准备好要开始本章的 t 要任务——设计一个流水线化的 Y 86 处理器了。我们开始时以 
SEQ + 作为基砲，在各个阶段之间添加流水线寄存器 D 我们最初并不尝试£确地处理不同的数据和控 
制相关。不过，经过一些修改，我们将达到目的，得到一个实现 Y 86 ISA 的、有效的、流水线化的 

处理器。 


4.5.1 插入流水线寄存器 

在我们创建一个流水线化的 YS6 处理器的最初尝试中，我们要在 SEQ+ 的各个阶段之间插入流 
水线寄存器 f 并对信号重新做了排列，得到 PIPE- 处理器，这里名字中的 
鉍终的处理器设计相比，性能要差一点。 PIPE- 的抽象结构如图4,39所小 D 流水线寄#器江 该图卞 
用浅灰色方框表示。每个寄存器吋以存放多个字节和字，侍会我们会看到。可以观察到 PIPE- 使用 
的硬忭申元与我们的两个顺序设计： SEQ (图 4,20) 和 SEQ+ (图 4+30) 完伞一样， 

流水线寄4器是按如下方式标 号的： 

F 保存程序汁数器的预测值，待会儿会讨论。 

D 位于 取指和解码阶段之间。它保存关 f 最新取出的指令的信息，即将由解码阶段进打处垣。 
E 位干解码和执行阶段之间。它保存关于最新解码的指令和从寄存器文件读出的值的信总， 
即将由执行阶段进行处理。 

M 位于执行和访 仓阶段 之间.它保存最新执行的指令的结果，即将由访存阶段进行处理。它 
还保冇关于用于处理条件转移的分支条件和分支 H 标的信息。 

W 位于访存阶段和反馈路径之间，反馈路径将计算出来的值提供给寄存器文件写，而3完成 
m 指令时，它还要向 PC 选择逻辑提供返回地址. 

图 4.40 表明的是下面这段代码序列是怎样通过我们的五阶段流水线的，其巾对各条指令的注释 

用II〜15来 表小： 


代表这个处理器和 


irirovl $1, %eax # II 
i rirovl %ecx # 12 
irirovl $3, %edx # 13 
irirovl $4, %ebx # 14 

# 15 


■■ 


5 halt 


图中右边给出了这个指令序列的流水线图 。同 4.4 节中简单流水线化的计算单兀的流水线阁一 
样，这 个阁描 述了每条指令通过流水线各个阶段的行进过稈，时间是从左往右增大的。卜_面一条数 
字表明各个阶段发生的时钟周期。例如，在周期1取出指令 II ，然后它开始通过流水线各个阶段， 
到周期5结束时，其结果写入寄存器文件。在周期2取出指令 II ，到周期6结束时， K ： 结米写 
以此类推= 在最卜 询，我们给出了当周期为5时的流水线的扩展图 。 此时，每个流水线阶段中各仓 

一条指令。 

从图 4.40 中，我们还可以看到我们画处理器的习惯是合理的，这样，指令是自底向 卜的 流动的。 
周期5时的扩展图表明的流水线阶段，取指阶段在底部，写回阶段在最上面，正如流水线硬件图（阁 
439) 表明的一样，如果看看流水线各个阶段中指令的顺序，就会发现它们出现的顺序与在程序中 
列出的顺序一样。因为正常的程序是从上到>_列出的，我们保留这种顺序，让流水线从下到上进行。 
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令.即 为稈咩■.发 生 ] 
Effl 令逋过解玛 阶段， 不宰的紀. m^r 
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之所以会这些 MPI . 为我们的浼水线化的处 IV 器&在第码阶段从岢存器: itft - 

中读取<»令 tfjWSf 敢. 而®到三个，期以后 h 俏令鲐过与回阶叚时，氺金梹 彻令甙 坊來巧脚轉存 
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•痔寄存 li 我们匕妓认识速种 IftT . ifa 现达种 f 是《为寄存 g 文件的读写泛在不闲的皆 
ft 进 行約， 导 鈥本闻 押分之 〖 flTttbli 不 ♦!£ 的相 . i # jfl . 
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來狂寿 不应该使 M 由我修 AftSL 为了屬 ft, 我 tlW 设杜丰 不髁修 Afe 身， 

这迚分析表明 kM **«： 灞寄 4墓教# f ft 和拍 « I ^- 
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iktHm 5 , + WijlSd afttt *. 

崎 t p 惟 v vhJA auiib ^nm R-#ti « n . 

4.5.5 用暂停 ( stalling ) 来避免数据 S 給 

m C_klin K ) 是一和博用的片]来磁免 R 昤的 rt 术. mm , 处球邪会停 I 卜愉水线中一 t 成多 
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就 al 明/这项技水_ 当掏令 bddl 处于 il 科 阶哄时 h dt * ■找 拉!1(逻《1垃观执行 t *存或，1 
H 阶段中免少#一备折令 2 JIK 奇处理褊不会让《«1爾令带着不 iEitf ： 扣眼通 
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(碣 pr ^3 宋说 i 成#|(至子■个湖明（时时麻付这 •■: 个韃序来说 
佥4别期7中拇到种个掩樣作枚的正确值.热冇继«沿«流水线邊 h 卜去. 
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11«)衫_入三个气 ft . 与 4* 二条 bawl 坩令和有三条 nop 櫛令 ■ 有_ 冋翁® 1* ft 
然实现这-机 制相角 若妈<#%家庖作此 * ■珀 i , ffljg 扣到 的性此 泮不很 ( If , 一条 Jfi 令® 澌一个 # 
ft : 器. 'KflUt 后 的坩 令倫使用 KK 新 的#存_. 像这 ft 的铪 况不胜校举 ，这金异致淹水# tft 停长 
达三个周爾《 Ft 陴紙了整个钠#吐教 .. 

4.56 用转发 ( fomardiftg ) 乘 g 免敢据 S 险 

我们朽吓-的 t 计 ft 在畔 W 阶 m 从懈#器 文作中 iSAM 作攝.佴是有内巉对这奋_寄存1&的 
写要在写回阶规才能进行.与其转停霞到母免威，不扯简垆地将 理弓时他传刊 泷水找裕你器 c 作 A 
贓操作围449用 proiifl 期;*的《*«_的_推述来儷礪了这 m . 样码阶段逻拼发押 .， 
寄鄱器而在写 4 MCIE 丄还有一个时的木进行的写。它 R 要肉 
V 地构拔供到 蟪口 E 的数_宇作为棵作牧 MB 时他.就 fit £_)6 ff ^ a 这种将结忠 
值 ft 推从一个流水线阶 ft 抟判跤罕 ( fr 段的技术称为教掂蛄矣 （ daLaftnvfiiding , 或間柊特发 )， 它使 
n pwg 2 柯棺令 防1 it 流水线相不 f 格抂钶 ! T 停， 
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m 4.4? 0»总2的使 ffl ft t 的; I 水故化的執圩 

fi 柙，4中_ jiertWJMits 有 ftiLfiits 中行 hh - 它用1个切， 

如祖士邡榷述的那梓，当 iifi # 阶 fit 中有对 寄作拽 表进行的片时 r 也可以使用 t 坩转 St , 以 * fti 
軒序 pr %3 中的 Wfl 布用期 5中， W 码阶 a 逻糾发 BL 在丐回阶 j ? 中竭口 E h 有对亦# 

永进行的勾 r 以及杧访存阶段中 有会许 _口 e 来迸行 m 写， 它不会竹悴 fi 到这啼 

写 函是用 写回盼段中的呔 (m w .^ fljE ) 作为撙作数 vbIA . 1访存阶段中 W 值 p-9 

M . VII 6) 作为操作数 va : IB , 

力了 充分利用数箱 W 发枝來，块们还坷以棉新计算 Hi 隹时值从执行阶段传 钱解吗阶段. 以鼉免 











槪序_+ 所澥 SfS ) 竹如街 fl : 周昉4中,样码瞼睹 逻钥发 观在访# PN 5 中饵对 w 存 

来 进行的 而 h 拽行 阶段中 ALU 正 ffit 算的值柄后曲会 g 入 宙冇 ： ^mm 
阶段中的值 （倍马 M 作为拗侏 ttv 3 IA. 也可以将 ALU 的角出 (倌弓嫩作 l&^IB』 

IH fell ALU 的 Ml 出不自进成任蚵同歩 W 码阶 SRffl: 时钟 间®] 结乘之的产生佰 1} vdA 
^1 vaJB- 進样作时钟上升幵始卞一个鹰期 UJ, dJ*：BP!；ftSE 噘陡装軚來自的值了*面在 
此2时 ALU 的垛出 d 妗是合法的了 + 
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A 本 ftM 布 fritfl 肀 tfds 的 ffl. 郫 ■ ■ 的 ■. 

中洲述时 H 犮技 +： 的 ft 用 梆 圮捋 aiaj 产 ttfiw 及筠 ufc 为叮瑞 cii 的値 ii 
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K 借号 vaJE.W vdM 和 W vi|B), 

以及两个不间的 》 ®3 的 (valAft valB>* 

4.49-114. Si 的扩权關还*叫解码阶段扣柯垅定是要用来自布#招文件的 ffl . U ： M«iaWM 
il 來的位，与侮个吡10 奇舜 器丸作的值相史的 m 的寄 ft 器 ID , 逻钭会将这叫 ID _ f 據布# S[D 
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(51 


^ ■請 ft 中 E 在计霄寄与# 


我们可以 


的块，这个块会咽从布存器文件中漢出的位或转发 


■ard 


valB 


441) 相 

SckFwdA^-tll M ^ B W J 


Select A H 的块的功 fe 与转 ; 》逻》的钻介，它允 


4 . 5 , 7 加愁/使用 dload / use ) IS 提! S 险 

汀类 ㈣ ⑽石陡咕咖转发米解块.因麵水线较沿面才 S ㈣ ■ 
屮例说明 f 加耗； ■使冏窗除 (loadAme Munil, K 中一 条柑令 [位于地址 fkxOlS 的 
睹器中该出岢存进^(的值 ■ 而下一条指令 Ui 于地址 (M)1t 

ffl 的 T « fl 周期 1 


4,54 


mrmo - v ]> 从心■: 


Ml) 霄 SO 值作为 _ 獯作 《[_ 
iSPJiT 軚说明， *MI 衔令 在周 阱？中黑®该寄作 a 的 ffiL (HftmrmoirL 搰令 
k^MW. ■ 才产生出这个幢 , 为 Tik fmti 讲 H 发到 

时间 | 这显然 J £ 不可 t 的. if 〗 必 a 找到 a * fe 机制*解决这科形式的数据 


不禅不 # 值送问到过±的 

汴意 _ 位于地址 


Lewe - 

诚 ■ 1& 


Mm 4 




28 S 


们会讨论这个内 # 


a 


£ 


7 


□■ MD ； 1 


v 鐘 sm 


0 


OaifPSi I 




□ E 


Qii _±: 


F 


D 


DH.-9DB: IE. 


F 


E M W 


U >^J 


3 U ： 




7 T 


:; 






o 

1 3 


nnl 






3 




i 


1 









0 論的 ImiA 桁令产 生的饵 矸器知 tra iiJtl 从访 存阶段 H 发封 J Sin 处 r 解即 M 中 ff : addl 


市令 


w 喊如 w w toE.W.*rM 




■ w ■相 w 


W 


W—fcD 


IP M^iU 




iM 


㈣ » 




U wilA 


地 J£p !■ 


M _™« 


IMj 


ALU 


E 


E 零 


E Birf.E 


■ ： H -： 




vnl 眞 vnll- 


nd 


CsneA . 

d iml 


i 


m 




>! 


D 


>£_■ rh#t 
i *. ift . VlN : 


VBlP 


m 


ft 令存 B 


m 


[ WlPC - 


m 


■PC ： 


f 


BB J .5 J 我化最柊的 St * 线让的实現一 PlPl 的抽 t 罔 

加的身 __rts I «A^ii mm- 

frffl 我 n 可以通过《«停# i » t 路含耝 *, 屬兔加 使用败 sm », % 

mmml tl 令通过执行》段 l f . 汍* K 榨制逻 ftm 现 WPJPfr 段中的街令（如出> f P 这今 M # 储雄中 











preJPC 


(53 SlT ■终《況 永线 tt ； 的 —— APE 捫《件 tg « 































































































































2H6 


E 会码阶 at 的指令 fi 悴-玫杈行阶® 中抽入 一个气 抱. m »\& 
说叫浙从存钻雅中 t di 的 is 呵 铒从访 nm 抟 s ： 到解 r 晚段中的 
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的 fftiii 可以从写回阶 et 钤葙 到访存阶段*就像淹水线_中，从灼明7屮耔号力 " iy 1 的方抿判阗 

…私兮为的方 ft 的罱头 农明的枣杆.桷入佈气泡代《了£常情况卜本来应溴 m 埃 is 过讯 木线 
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合起来 :足以 处珥所 WnJ 能卖眾的数摒畤昤，1为 R 冇 JU 载4铒会陴低樣本_的呑吐丧 tmLf ■可 
以汰 5M 每个时钟抝叫 S W —糸 f 指令的#吐讀_标， 


4 , 5 .fl PIPE 各阶段的实现 

祝在租们 G 捽创珐了 PIPE <_我们 ft 明转 t 忮术的流水线化的 Y 秘处曄 S) 的 ft 体钱1构 & 它 
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把气泡和暂停信号都设为 1 看成是出错 & 

图 4 . 66 中的表给出了各个流水线寄存器在 三种特 殊情况下应该釆取的行动。对每种情况的处理 
都是流水线奇存器 IF 常、暂停和气泡操作的某个组合 . 

在定时方面，流水线寄存器的暂停和气泡控制信号是由组合逻辑块产十的。与时钟上升时，这 
些值必须是合法的，使得与卜一个时钟周期开始时，每个流水线寄存器要么加载，要么暂停 k 要么 
产十_气泡。有了这个对流水线寄存器设计的小扩展，我们就能用组合逻辑基本构建块、时钟寄存器 
和随机访问存储器，来实现一个完辕的流水线，包括所有的 控制。 

控制条件的绀合 

到口前为止，在我们对特殊流水线控制条件的讨论中，我们假设在仃意一个时钟周期内，最 

多只能出视一个特殊情况 D 在设计系统时，一个常见的毛病是不能处埋冋时出现多个特殊情况的 

情形。让我们来分析下这些可能性 □ 南 4 + 67 画出了导致特殊搾制条件的流水线状态。 这巧 阌给 

出的是解码、执行和访存阶段的块。暗色的方框代表要出现这种条件必鈾要满足的特別限制。加 

载/使用胃险要求执行阶段中的指令将一个值从存储器读到寄 4 器中，同时解码阶段 中內值 要以该 

寄存器作为源操作数。预测错误的分支要求执行阶段中的指令是- 个 跳转指令。对 ret 来说冇-.种 

可能的情况——指令吋以处在解码、执行或访存阶段。当 ret 指令通 H 流水线时，前面的流水线阶 
段都是气泡。 
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从这畔图屮我们 nl 以肴出，大多数控制条件是 k 斥的：例如，不吋能同时既有加载/使险又 
有预测错误的分支，因为一个耍求执行阶段中是加载指令 （mrmovl 或 popl)， 而刃一个娈求其中是 
条跳转指令。类似地，第二个和第二个 ret 组合也不可能4加载/使用冒险或預测错误的分支㈣时 
出现 。 只冇用箭头标明的两种组合邛能同时出现。 

组合 A 是指执行阶段&有一条不选择分支的跳转指令 t 而解码阶段屮有-条 ret 指令。出现这 
种组合要求 ret 位尸不选择分支的 H 标处。浼水线拧制逻辑应该发现分 女预测 错误，因此要取消 ret 




指令 D 


练匁腰 4.27 

写一个 Y86 汇编语言程序，它能导致出观组合 A 的情况，并判断控制逻辑是否处理正确。 

将对组合 A 条件的抟制动作合并起来（图 4.66). 我们得到下面这样的流水线拧制动作 t 假设 
飞泡或暂停合復盖正常的情 况)： 


/ 


条件 




气泡 


£常 


处那 ■ rei 


预测 ft 误的分支 




气泡 


气泡 


组 




气泡 


气泡 


也就是说，组合情况 A 的处理与预测错误的分支相似，只不过在取指阶段是暂停。幸运的是， 
在卜_ 一 个周期， PC 选择逻辑会选择跳转 P 面那条指令的地址，而不是预测的程序计数器値，所以流 
水线寄存器 F 发生什么是没有关系的。因此我们做出结论，流水线能正确处理这种绀合情况。 

组合 B 包括 •个 加载/使用 冒险，其中加 载指令设置寄 存器％ ^ S p , 然后 ret 指令用这个寄存器作 
力源操怍数，因为它必须从栈中弹出返回地址。流水线控制逻辑应该将 ret 指令阻塞江解码阶段。 


练习親 4.28 

骂一个 Y 86 ';!： 编语言程序，它能导致出现组合 B 的情况，并以 hah 指令结束。判断控制逻辑是 

否处理正确 D 




处理阳 

预测铂设的分支 


m 


气泡 


正常 




泡 


正常 


mi 






气泡 


it ■常 


期 a 的怡况 


暂悴 




气泡 


止常 




将对组合 B 条件的拧制动作结 合起夹 （图 4.66), 我们得到 F 面这样的流水线控制动 作： 

如果同时触发两组动作，控制逻辑会试图暂停 fet 指令来避免加载/使用冒险，同时乂会因为 ret 
指令而往解码阶段中插入一个 气泡。 显然，我们不希望流水线同时执饤这两组动作。相反，我们希 
望它只采取针对加载/使用冒险的动作。处理 ret 指令的动作应该推迟•个周期。 
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这些分祈*明栩合特汍1杯上1找们 PIPE 校制逻 w 哄柬的龙现并没搿』 t : 蝴处押 
这种姐合 情况. 141使设汰 Cl 打通过了 W 多«拟_试，它还捆节 HS , 只有通过刚才 那杵 的分析 
才 It 发 JMm ， 当技扑一 个穴 W 组合甲时> 校制水线帝#雅0的穴电祁 
•«s i . 这个例+表壤了某翁分析的重要性，良 nifit 拥稃中是很 tiaa 个闻逋的,如果没 

有发观这个 间典. 逋水线扰*平轮出实地实現 iSA 的行为 - 

mmm 

徐出的足汍水线佇制逻物的幅据取0邃水浅寄存 器和 m 水钱阶迓的 佴号. 冷 
WJEfli 产免浼水线寄 fr 捆的軻稃 和气准 柁甸依啐.抆们可以将田4_糾的发坩条件积陶 4.M m 怍 

结会起來，产生异个 Ml 求残佇制侑兮的 HajH a 

遇到加 iyfjni 背昤或啦指令，摊承线芾存器卜■必效霤挣， 
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# Mispredicted branch 

( E_icode == 1 JXX && ] e _ Bch ) II 

# Siall Lng at fetch while ret passes through pipeline 

IRET in { C_icode, E_icode ； M_icode }? 


练习题 4.30 

写出 PIPE 实现中信号 EJmbble 的 HCL 代码。 

现在我们就讲完了所有的特殊流水线控制信号的值。在 PIPE 的完 tHCL 代码屮，所冇其他的 
流水线控制信号都设为 L 


4.5.10 性能分析 

我们4以肴到，所有耑要流水线控制逻辑进行特殊处砰的条件，都会导致我们的流水线不能够 
实现每个时钟周期发射一条新指令的 H 标。我们可以通过确定往流水线中插入 气泡的 频率，朿衡暈 
这种效率的损失，因为插入气泡会导致无用的流水线周期 3 —条返回指令会产生二个气泡 f -个加 
载/使用胃险会产生一个， 时一 个预测错误的分支会产生两个。我们可以通 iii 十算 PIPE 执行一条指 
令所需要的平均时钟周期数的估计值，来量化这些处罚对整体性能的影响，这种衡量方法称为 CPI 
(cycles per instruction， 每指令周期数）。送种衡置值是流水线平均吞吐單:的倒数，+过时间 子位是 

时钟周期，而不是微微秒。这是对•个设计体系结构效宇的很有用的衡量标准。 

另一种肴待 CPI 的方法是，假设我们在处理器上运行某个基准程序*并观察执行阶段的运行 t 
每个周期，执打阶段翌么会处理一条指令，然后这条指令继续通过 剩卜的 阶段，直到完成，要么会 
处理一个由于=种特殊情况之一而插入的气泡，如果这个阶段 一并处 理/ C, 条指令和 G 个气泡， 
那么处理器总共需要人约个时钟周期来执行 c; 条指令 t 我们说“人约”是因为我们忽略 r 启 
动指令通过流水线的周期。我们吋以用如 h 方法宋计算这个棊准程序的 CP1: 


C b 


c [ + c fc 


CPI = 


= L 0 + 2 




c 


也就是说， CPI 等于 wkt 个 处罚项 CVG , 这个项表明执行条搰令 f 均要插入多少个气 
泡。因为只有二种指令类型会导致插入气泡，我们可以将这个处罚项分解成=个部分： 

CPI = 1.0+/p+mp + rp 

这鬼， Ip Cload penalty s 加载处罚）是当由 干加载 / 使用 冒险造 成暂停时插入气泡的平均数 
(mispredicted branch penalty ,预测错误分支处罚）是当由于预测错误取消指令时插入气泡的平均数， 
而 rp (return penalty， 返冋处罚）是当由于 ret 指令造成暂停时插入气泡的 T ■均数。每种处罚都是由 

该种原因引起的插入气泡的总数的一部分）除以执行指令的总数 （O 

为了估计每种处罚，我们需要知道相关指令（加载、条件转移和返 N〕 的出现频率，以及对每 
种指令特殊情况出现的 频韦。 对我们07的计算，我们使用下面这组频率（等同于 [31] 和[331中报朽 
的测量 位）： 


mp 


加载指令 （ mrmovl 和 popl) 占所有执行指令的 25% 。其巾 20% 会导致加载 / 使用胃险。 
条件分支指令占所有执行指令的 20%. 其中 60% 会选择分支 + 而 40% 不选择分支， 

返 R 指令占所有执行指令的 2 %。 




JOf 


H 細 I [观 iI 每种处 L f 賊令則 1 ㈣ 4 篆件出賴书和当条 ft 臟时捕入响数 


mmiu 


■两 




IrtN * 


条#量邏 




三种处佝的总 #1 fl.IT , 祈以捋載 CPI 为 L27- 

我II拥 i 标是设计4毎个属_褒时■夸術令的镰术嫌_也就是 CPI 为 IJ(U 我扪没有充全达 

Sfffl 近一歩_蚨 CPL 璀巾注產力在 

mimmm 


到 H 标 1 €£1#休忡期£«預不《 了.视们还 tfttij 

咖鶴 ㈣ 支上 • 它们占到】 ■« 个灶 S 1&27 中的 ij |6. 因为条 ft # 移謂 fJL 
叉纤常由《, 而每次 捩#(掛误部要收_两头憎令. 


筹习 JH 4.31 

俩认我 f : l 试 I ] 了^■种成功率 t 以达到 65 %的分支《»)策略，利尹后向分支逡择，矿句分支就不 

昂£时 CP 1 有什么样的杉 疇呢？ 4 &设其他所 有賴本郭不 t . 


A #, 如 43.3 节中耦邐齣罪杯 
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4-5-11 未完成的工作 

ffiffj 已給锊 tT PIPE 流 水线化 的微袖璀曝结沟， t 计了榨制道樹块，并实 《Tf 噼 Jit 水线淹 

PIPE 还是缺 2 —些实 眸 ft 处现器 
丼讨论吳增加这些符 ft I赵择什么 


bit ftow> 不疋以把理拎殊恂况的流水线控制逻縐 _ 不过 
设计中 S 必芾旳叉:鏟杵传 + 我们会 iiJItt 中 
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= ■■ 




当一 ■个机 St 裡序遇_杻结的 ff (况时 


I II 法 ft 令代 W._S £衔令或 ft 掛 地』1 卜4杜〈:汙 K IV 

卞通中 斯，导常 (fflocpMuJp 角常呀上去 f 嫌过8 fl 亂它评川一个#常处评程序 

_ lciO . 龍序赵操作系_-9|分-刪 I 会在: ㈣ 时_介射 雜腿, fc 执行 

fe 发 一个开 t . 弁? TM : 瑾 « 处吁器 掏令乘 (tS 趙构釣 _ s 分 
见 mw 态产生任问 影咱. 

存 一 个歡本线化的系统中 s 异苗灶珅包抦一哼抽节问敁 




■-.ClDCpIlEKn 


h*H It 令也会 

疆常,塞輸子»常的费里, JPf 佥导 
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難， ■* -个難_ ㈣ 時咖 ■ 可能会碰令桃 s 齡 ㈣ _中 相令时 ft 令地 SH 

以及控制逻_报售麻外阶段中伟今的 非这代 孢们必效确定处 
拜勵 _ j # ㈣ 飾*針神.鮮 suh 減糾巾職層例|咖雌4 优先鎳 a 

今例/■屮，咤改《传4存阶珐中 报令的 尾址繮界 + 关 f jqs ® 苜押序，访疔硏段中的栉令 
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窗私取 M - iSf & 令‘下面明鼉一个这 示铡的 ■标代 
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0x007 : 308001000000 I irmovl $1, %eax # Fal 1 through 

OxOOd: 10 

OxOQe ： 

OxOOc : ff 

在这个程序中，流水线会预测不选择分支，因此它会取出汴以一个值为 OxFF 的字节作为指令 
(由汇编代码中 . byte 指示字产生的）。解码阶段会因此发现一个非法指令异常。稍后.流水线会发 
现不应该选择分支，因此根本就小应该取出位 丁地址 OAOOe 的指令。流水线控制逻辑会取消该指令, 
但是我们想要避免4现异常。 

第个细节问题的产 4: 是因为流水线化的处理器会在不冋的阶段更新系统状态的不间部分。有 
吋能会出现这样的情况，-条指令导致了一个异常.它后面的指令在产生异常的指令完成之前改变 
了部分状态。比如说，考虑 FI & 的代码序列，其中我们假设不允许用户程序访问大于 OxcOOOOOOO 
的地址（跟第 [0 章中讨论的现 ilLimix 屮的情况一 样)： 


halt 

Target ： 

*byte OxFF 


林 Invalid instruct ion code 


irmovl $0 T %esp 
pushl %eax 

addl %ecx,%eax 


# Set stack pointer to 0 

# Attempt to write to OxfJJJfffc 
轉 Sets condition codes 


pushi 指令 导致- 个地址异常，因为减小投指针会导致它绕问 (wrap around ) 到 Oxfffflffc 。 访冇 

阶段中会发现这个异常。在同一周期中， addl 指令处 于执行 阶段，而它会将条件码设置成新的值。 
这就会违反异常点之后的所冇指令都不能影响系统状态的要求。 

一般地 f 通过将异常处理逻辑合并到流水线结构中，我们既能够从各个异常中做出 [t 确的选择, 
也能够避免出现由亍分支预测错误取出的指令造成的异常。我们给每个流水线寄存器添加了一个特 
殊的字段 exc ， 它给出处于该流水线寄存器中指令的异常状态。如果一条指令在其处理中于某个阶 
段产生了个舁常，状态字段就设 E 成指个异常的种类。异常状态和其他信息一起沿着流水线传播， 
直到它到达写回阶段。在此，流水线控制逻辑发执出异常，并开始取出异常处理程序的代码。 

为了避免异常点之后的指令更新任何程序员可 E 的状态，应该修改流水线控制逻辑，使之在访 
存 或写回阶段屮的指令导致异常时，小会更新条件码寄存器或是数据#储器。在上面的示例程序中， 
控制逻辑会发现访存阶段中的 pushl 导致了)?.常，因此应该禁止 addl 指令吏新条件码寄存器，（在本 
段文字所对应的 PIPE 的模拟器中，你会看到流水线化的处理器中处理异常的技术实现。 ） 

让我们来看看这种处理异常的方法是怎样解决我们刚才提到的那些细节问题的。当流水线中有 
一 个或多 + P / T 段出现异常时 ， 信息只是简毕.地存放在流水线寄存器的异常状态字段中。异常事件不 
会对流水线中的指令流有任何影响，除了会禁±流水线中后曲的指令更新程序员可見的状态（条件 
码寄#器或#储器)，直到异常指令到达 M 后的流水线阶段。因为指令到込写 [ H ] 阶段的顺序弓它们在 
非流水线化的处理器中执打 的顺序 相同，所以我们可以保证第-条遇到异常的指令会第一个引起控 
制转移到异常处理拜序.如果取出了某条指令，过后又取 消了. 那么所有 关丁这 条指令的异常状态 
信息也都会被取祀 U 所有导致异常的指令后面的指令都不能改变程序员吋见的状态。携带指令的羿 
常状态以及所有其他信息通过流水线的简单原则是处理异常的简单时町靠的机制。 

多周期指令 

Y 86 指令集中的所有指令都包括些简单的操作，例如数字加法。这些操作 nj 以在执行阶段〜 
个周期内处理完。在一个更完整的指令集中，我们还需要实现一些需要更为复杂操作的指令，例如， 
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整数乘法和除法，以及浮点运算。在-个像 PIPE 这样性能中等的处理器中，这些操作的典型执行 
时间从浮点加法的3或4个周期到整数除法的32个周期。为了实现这些指令，我们既需要额外的硬 
件来执行这些计算，还需要一种机制来协调这些指令的处理与流水线其他部分之间的关系， 

实现多周期指令的一种简单方法就是只是简单地扩展执行阶段逻辑的功能，添加一些整数和浮 
点算术运算单元 & 一条指令在执行阶段中逗留它所需要的多个时钟周期，会导致取指和解码阶段暂 
停 6 这种方法实现起来很简单_但是得到的性能并不是太好。 

口 J 以通过采用独立于主流水线的特殊硬件功能单元来处理较为复杂的操作以得到更好的性能。 
通常 t 有一夂 功能争元来执行整数乘法和除法，还有一个来执行浮点操作 4 3—条指令进入解码阶 
段时，它可以被发射到特殊单元。在这个特殊单元执行该操作时，流水线会继续处理其他指令。逋 
常，浮点单元本身也是流水线化的，因此多个操作可以在主流水线和各个单元中并发执行。 

不同单元的操作必须同步，以避免出错。比如说，如果在被不问单元执行的各个指令之间有数 

据相关，控制逻辑可能需要暂停系统的某个部分，直到由系统其他某个部分处理的操作的结果完成。 
经常使用各种形式的转发，将结果从系统的一个部分传递到其他部分，和我们前面看到的 PIPE 各 
个阶段之间的转发一样。虽然与 PIPE 相比，整个设计变得更为复杂，但还是可以使用暂停、转发 
以及流水线控制等同样的技术来使整体行为与顺序的 ISA 模型相匹配。 

存储系统的接口 

在我们对 PIPE 的描迖中，我们假设取指黾元和数据存储器都可以在一个时钟周期内读或是写存 
储器中任意的位置，我们还忽略了占自我修改 Csclf-moodifyiog ) 代码造成的可能 冒险. 在自我修改 

代码中，-条指令对一个存储 K 域进行写，而后面的指令又从这个区域中读取进一步说，我们是以 
存储器位置的虚拟地址来引用它们的，这就要求在执行实际的读或写操作之前，要将虚拟地址翻译成 
物理地址。显然，要在-个时钟周期内完成所有这些处理是不现实的。更糟糕的是，正在访问的存储 
器的值可能是位于磁盘上的，这会需要上百万个时钟周期才能把数据读入到处理器存储器中。 

IE 如我们将在第6章和第10章中讲述的那样,处理器的存储系统是由多种硬件存储器和管理虚 
拟存储器的操作系统软件共同组成的。存储系统被组织成一个层次结构，较快但是较小的存储器保 
持着存储器的一个子集，而较慢但是较大的存储器作为它的后备。最靠近处理器的一层是髙速缓存 
存储器 (cache memories ), 它提供对最常使用的存储器位置的快速访问。一个典型的处理器有两个 

第一层髙速缓存——一个用于读指令，一个用于读和写数据。另一种类型的高速缓存存储器，称为 
翻译后备缓冲器 （translation look-aside buffer ) 或 TLB ， 它提供了从虚拟地址到物理地址的快速翻译。 

将 TLB 和高速缓存结合起来使用 ，大多 数时候，确实可能在一个时钟周期内读指令并读或是写数据。 
因此，对我们的处理器引用存储器的简化的看法实阮上是很合理的。 

虽然髙速缓存中保存有最常引用的存储器位置 i , 但是还是有时候会出现卨速缓存不命中，也 
就是有些引用的位置不在岛速缓存中。最好的情况中，可以从较卨层的高速缓存或处埋器的主存中 
找到不命中的数据，这需要3〜20个时钟周期，同时，流水线会暂停，将指令保持在取指或访存阶 
段，直到高速缓存能够执行读或写操作 4 至 f 我们的流水线设计，通过添加更多的哲停条件到流水 
线控制逻辑，就能实现这个功能 6 高速缓存不命中以及随之而来的与流水线的同步都完全是由硬件 
来处理的，这样能使所需的时间尽可能地缩短到很少数暈的时钟周期。 


L 指数据。——译者 
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有时，被 W 用的存储器位置实阽上是存储在磁盘存储器卜.的。此时，硬 f 会产生•个块页 （page 
fault) 异常倍号。同其他异常一样，这个异常会导致处理器凋用操作系统的异常处理程序代码，然 
后这段代码会发起从磁盘到主存的传送操作。一旦完成，操作系统会返回到原来的程序 ，而导致缺 
页的指令会被重新执行=这次存储器引用将成功，虽然可能会导致茛速缓存不命中。止硬件 调用操 
作系统例程*然后它义会将控制返回给硬件，这就使得硬件和系统软件在处理缺页时能协同工作。 
因为访问磁盘会需要数白万个时钟周期， 0S 缺页中断处理稈序执行的处理所需的几百个时钟周期 
对性能的影响可以忽略+计。 

从处理器的角度來看，将用暂停来处理短时间的高速缓存不命中和用异常处理来处理时间的 
缺页结合起来，能够顾及到存储器访问时由 f 存储器层次结构引起的所有不可预测性。 

旁注： 当前的微处理鼉设计 

一个五阶段流水线，例如我们已经讲过的 PIPE 处理器，代表了 20世纪80年代中期的处理器 
设计水平. BcAeley 的 Patterson 研究组开发的 RISC 处理器原型是第一个 SPARC 处理器的基础，它 
是 Sun Microsystems 在1987年开发的， Stanford 的 Hennessy 的研究组开发的处理器由 
Technologies (—个由 Hennessy 成立的公司）在〗986年商业化了 n 这两种处理器都使用的是五阶段 
浼水线， Intel 的 i 4 沾处理器用的也是五阶段波水线，只不过阶段之间的职贵划分不太一样，它有两 
个解码阶段和一个合并了的执行/访存阶段 [21], 

这些流水线化的设计的吞吐量郝限制在最多一个时钟周期一条指令 a 4.5.10 小节中描迷的 CPI 
(每指令 用期） 测量值不可能超过 1.0, 不同的阶段一次只能处理一条指令，较新的处理器支持超 
标责 （superscalar) 搮作，意味著它们通过并行地取指、解码和执行多条招令，可以实现小于 U) 的 
CPL 当超标量处理器已经广泛使用时，性能測量标准已经从 CPI 转化成了它的倒数一争周期执 
行指令的平均数，即 

乱序 ( out - of ^ order ) 执行的技术来并行地执行多条指令，执行的顺序也可能完全不同于它们在秘序 
中出现的牘序，但是保留了牘序 ISA 樓型蒎含的整体行为.作为对程序优化的讨论的一部分，我们 
将会在第5章中讨论这种形式的执行 

不过，流水线化的处理器并不只有传统的用途，现在出售的欠部分处理器都用在嵌入式系统中， 
控制着汽丰运行、消费产品，以及其他一些系统用户不能直接看到处理器的地方.在这些应用中， 
与性能较高的楔型相比，流水线化的处理器的简单性，比如说像我们在本章中讨论的这样，会洚低 
成本和功耗需求 9 


7AM 


对超标量处理器来说， IPC 可以大于1几最先进的设计使用了一种称为 


IIM 


4.6 小结 

我们己经看到，指令 f 体系结构（即 ISA) 迮处理器行为（就指令集合及其编码而 &•) 和如何 
实现处理器之间提供了一层抽象 D ISA 提供了程序执行的一种顺序 说明. 也就是一条指令执行完了, 
下一条指令才会开始。 

苺本 IA32 指令集，井 M 人大简化其数据类型、地址模式和指令编码，我们定义出 fY 86 指令 
奐。得到的 ISA 既冇 RISC 指令集的属性，也有 CISC 指令集的属性。然后，我们将不同指令组织 
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放到五 2 个阶段中处理，在此，根据被执行的指令的不同 * 每个阶段中的操作也不相同。从此，我 
们构造了 SEQ 处理器，其中每个时钟周期推进一条指令通过每个阶段 4 通过重新排列各个阶段，我 
们创建了 SEQ+ 设计，其巾第一个阶段选择程序计数器的值，它被用来取出当前指令。 

流水线化通过止不冋的阶段并行操作，改进了系统的吞吐暈性能 。 在任意一个给定的时刻，多条 
指令被处理。在引入这种并行性的过程巾，我们必须非常小心，以提供与枵序的顺序执行相同的用户 
可见的、程序级行为。我们通过往 SEQ+ 屮添加流水线寄存器，并重新安排周期来创建 PIPE- 流水线， 
介绍了流水线化> 然后 t 我们添加了转发逻辑，加速了将结果从一条指令发送到另一条指令.从而提 
高了流水线的性能。有几种特殊情况需要额外的流水线控制逻辑来暂停或取消一些流水线阶段 D 

在本章巾，我们学有关处理器设计的几个重要 经验： 

• 管理复杂性是首要问題。我们想要优化使用硬件资源，在最小的成本下获得最大的性能。 

为了实现这个 s 的，我们创建 r 一个非常简单而一致的框架，来处理所有不冋的指令类型。 

有了这个框架，我们就能够在处理不同指令类型的逻辑中间共享硬件单元， 

• 我们不需要直接实现 ISA & ISA 的肓.接实现意味着一个顺序的设计。为了获得更高的性能， 
我们想运用硬件能力以 冋时执 行许多操作，这就导致要使用流水线化的设计。通过仔细的 
设计和分析，我们能够处理各种流水线冒险，因此运行一个程序的整体效果，同用 ISA 模 
型获得的效果完全一致。 

• 硬件设计人员必须非常谨慎小心 & 一 n 芯片被制造出来，就几乎不 RI 能改正任何错误了 & 

一 开始就使设计正确是非常重要的。意思就是，仔细地分析各种指 4 类型和组合情况，甚 

至于那些看上去没有意义的情况，例如弹出栈指针。必须用系统的模拟测试程序彻底地测 
试设计。在开发 PIPE 的控制逻辑中，我们的设计有个细微的错误，只有通过对控制组合的 
仔铂而系统的分析才能发现. 

4.6.1 Y 86 模拟器 

本章的实验资料包括 SEQ、SEQ+ 和 PIPE 处理器的模拟器。每个模拟器都有两个 版本： 

• GUI (图形用户界面）版本在图形窗0中显示存储器、程序代码以及处理器状态。它提供了 
一 种査看指令如何通过处理器的力便形式。控制囱板还允饤你交互式地重启动、单步或运 
行模拟器 9 这些版本要求有 Tel 脚本语 t 和图形库。 

• 文本版本运行的是相同的模拟器，但是它只将显示信息打印到终端上，对调试来讲，这个版 
本不是很有用，但是它允许处理器的自动测试，而且它可以运行在不支持 Tcim 的系统上。 
模拟器的控制逻辑是通过将逻辑块的 HCL 声明翻译成 C 代码产生的。然后，将该代码编译并 
与模拟代码的其他部分进行链接 。 同时还有测试脚本，它们全面地测试各种指令以及各种冒险的可 


能性 


参考文献说明 

对于那些想更多地学习逻辑设计的人来说， Katz 的逻辑设计教科书[39〗是标准的入门教材，它 
强调的是硬件描述语言的使用。 

Hennessy Patterson 的计算I体系结构教科书 [33】f 盖了处埋器设计的广泛内容，包括像我们 


2原文是六 ■> - 一- 译® 
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在这里讲迖的 简申流 水线，还有并行执行更多指令的更高级的处理器。 Shmer 和 Simth[69] 洋细介 
绍， AMD 制造的、 Intel 兼容的 1A32 处理器。 


家庭作业 


4.32 


在我们的 Y86 小例程序中，例如图45屮的 Sum 函数，我们多次遇到想将-个常数加到寄存器 
的情况（例如，第12和〗3行，以及第14和15行X这要求 | 先用 irmovl 指令将个寄存器设置 
为常数，然后用 addl 指令把这个值加到 H 的寄存器。假设我们想添加一条新指令 iaddl, 其格式 如卜: 


?■节 


iaddl V, rB 


c 0 3 rB 


V 


这条指令将常数值 V 加到寄#器 rB, 请插述实现这一指令所执行的计算。 pJ 以参考 irmovl 和 
OP1 的计算 C 图4.16)。 


4,33 


如 3.7.2 小节中讲述的那样， IA32 的指令 leave 可以用来使栈力返 In] 做准备。它等价于 卜面 这个 
Y86 指令序列： 


rrmovl %ebp , %esp Set stack pointer to beginning of 

Restore saved %ehp and set sta.ck ptr to end cf 
caller's frame 


ra^e 


2 popl %ebp 


假设我们要往 Y 秘指令集中加入这样…条指令 ， 编码如下: 


字节 


EK 


iedve 


请描述实现这一指令所执行的计算。可以参考 pop] 的计算（图 

4.34 ♦♦ 

文件 seq-full.hcl 包含 SEQ 的 HCL 描述，并将常数 I1ADDL 声明为 f 六进制值 C， 也就是 iaddl 
的指令代码 □ 修改实现 iaddl 指令的控制逻辑决的 HCL 描述，就像家庭作、 Ik 4.32 中描述的那样。可 
以参考实验资料获得如何为你的解答生成模拟器以及如何测试模拟器的指导。 

4.35 ♦♦ 

文件 seq-full.hcl 还将常数 ILEAVE 声明为十六进制值 D , 也就是 leave 的指令代码 ，冋时将常 

数 REBP 声明为7,即％0冲的寄#器 ID。 修改实现 leave 指令的控制逻辑块的 HCL 描述，就像家 

庭作业433中描述的那样。町以参考实验资料获得如何为你的解答生成模拟器以及如何测试模拟器 
的指导。 


4.36 ♦♦♦ 

假设我们要创建一个较低成本的、基于我们为 PIPE- 设计的结构（图 4.39 和图 4,41) 的流水线 

化的处理器，没有使用旁路技术。这个设计圬辨停来处理所有的数据相关，茛到产生所需值的指令 
己纴通过了写回阶段。 
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文件 pipe-stalLhcl 包含一个对 PIPE 的 HCL 代码的修改版，其中禁止了旁路逻辑。也就是，信 
号 ejalA 和 e_va!B 只是简单地声明为下面 这样： 


## DO NOT MODIFY THE FOLLOWING CODE ■ 

## No forwarding 

int new E va.lA = 


valA is either valP or value from register file 


D_icode in { ICALL, IJXX } i D_valP; # Use incremented PC 
1 : d_rvalA ； 4 Use value read from register file 


M No forwarding. valB is value from register file 
int new_. E. valB 


d rvalB 




修改文件结尾处的流水线控制逻辑，使之能正确处理所有 m 能的控制和数据冒险 & 作为设计工 
作的一部分，你还要分析各种控制情况的组合，就像我们在 PIPE 的流水线控制逻辑设计中做的那 
样。你会发现有许多不同的组合，因为有更多的情况需要流水线暂停。要确保你的控制逻辑能正确 
处理每种组合情况以参考实验资料获得如何为你的解答生成模拟器以及如何测试模拟器的指导。 

4.37 ♦參 

文件 pipe-full.hd 包含一份 PIPE 的 HCL 描述，以及常数值 IIADDL 的声明。修改该文件以实现 

指令 iaddl， 就像家庭作业 4.32 中描述的那样，可以参考实验资料获得如何为你的解答生成模拟器 
以及如何测试模拟器的指导. 


4.38 ♦♦♦ 


文件 pipe-full.hcl 还包含常数 ILEAVE 和 REBP 的声明，修改该文件以实现指令 leave ,就像家 
庭作业 4.33 中描述的那样。可以参考实验资料获得如何为你的解答生成模拟器以及如何测试模拟器 


的指导 


4.39 ♦♦♦ 

文件 pipe-nthcl 包含一份 PIPE 的 HCL 描述，并将常数 J_YES 声明为值0,卽无条件转移指令 
的函数代码 . 修改分支预测逻辑，使之对条件转移预测为不选择分支，而对无条件转移和 caU 预测 
为选择分支。你需要设计一种方法来得到跳转0标地址 valC， 并送到流水线寄存器 M , 以便从错误 
的分支预测中恢复。可以参考实验资料获得如何为你的解答生成槙拟器以及如何测试模拟器的指导， 

4.^0 ♦♦♦ 

文件 pipe-btfnLhd 包含一份 PIPE 的 HCL 描述，并将常数 J.YES 声明为值0,即无条件转移指 
令的函数代码 □ 修改分支预测逻辑，使得当 valC < valP 时〔后向分支乂就预测条件转移为选择分 
支-当 valCgvalP 时（前向分支)，就预测为不选择分支 □ 并且将无条件转移和 call 预测为选择分 
支。你需要设计一种方法来得到 valC 和 valP, 并送到流水线寄存器 M， 以便从错误的分支预测中 
恢复。坷以参考实验资料获得如 K 为你的解答生成模拟器以及如何测试模拟器的指导。 

4-41 ♦♦♦ 

在我们的 PIPE 的设计中，只要一条指令执行了 bad 操作，从存储器中读一个值到寄存器，并 

且下一条指令要用这个寄存器作为源操作数，就会产生个暂停。如果要在执行阶段中使用这个源 
操作数 t 暂停是避免冒险的惟一方法。 


m 


封于宽—务 ie 令树猓雠作 k 存铺刊什储器的悄况 
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A 
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iC 
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也慝作为下一条指令地址#释的一部分_ ■ 而也执 行阶® 而擀访 mm mu 个 a 了， 

a . ^出描述 smin 装__使 sm 较I件的公見类似 t ._4 m 中洽出的迆_十 
抟发时不会#致柙停以外 a 
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尚此说水线押制逻鲥个会; tafffnjf 式的比 Jfe / 使出时埯* « A 这 t HCL 描述以攻现如01砖发* 
坷以#考4聆奋糾 ftffl 如何力 你的，答4:成 flf 报找以及如阿灣试懊扨器的 帘砀， 

4.42*** 

我 fj 的汝木线化的设 it*fi -4 不太现实，_为寄* S 文件宵两个写場IX然两只扛 pqrf ffl «€ 

it 他 ffitR 使明一十写瑙 U . 共？■这个袖 H 來写 此1 丑和 
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Ih 
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■ 

■■ 


IL 


4 iiE 


用 HCL 写的 ft 行这些含井 ft 逆 ft , » 下酐示 6 


w^stE - I 

,# Waiting from 

W . d^tH 1= 

1 I W _ d 3 lEj 


E 


W , 加 tM ; 




int vLvaiE 


W_ristW != 

I : w_valEj 


E = h jvalHi ? 




初这埤多硌 fe 用备的柙制楚由知 tE ■定的 —— 与它表明有策个帘存雄时，扰选 ffSJq E 的值 
否則 说迭择 WPM 的值， 

换拟 ® 哦中，我 me 以 耷止寄 ffffi 埤卩 M . 如 FA 这段 HCL 代铒 断氺 I 

int dK 

illt w _ valM ： = ts 

核 Fife 的 [ M V 1 的方法 

使之〜 Ffif 两条撞令_有一祥 的#* E 

idddl 54 - l^sp 

mnnov } _«fl |，* ap ) 


■r 


E ? 


— 种 / j ■法 i 拷衿制逻 缉动 迄地处堀術令 pop〗rA 
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(关 T 指令 mddl 的描述，请参考家庭作业4.32> 要注意两条指令的顺序，以保证 pop] %esp 能正确 
工作。要达到这个 H 的，可以让解码阶段的逻辑对上面 列出的 popl 指令和 add] 指令 • •视同仁，除 
了它会预测下一个 PC 弓当前 PC 相等以外 a 在下一个周期，再次取出 f popl 指令，但是指令代码 
变成了特殊的值 IP0P2。 它会被当作条特殊的指令宋处理》行为与」:面列出的 mnnovl 指令 一样。 

文件 pipe-lw.hcl 包含着上面讲的修改过內写端 □ 逻辑。它将常数 IP0P2 声明为十六进制值 E。 
还包括信号 new_DJcode 的定义，它产生流水线寄存器 D 的 icode 字段 □ 可以修改这个定义 _ 使得 
当第一-次取出 popl 指令时，插入这个指令代码 □ 这个 HCL 文件还包含信号 f_pc 的卢明，也就是标 
号为 “Select PC” 的块（图 4.56) 在取指阶段产生的程序计数器的值 □ 

修改该文件中的抟制逻辑，使之按照我们描述的方式来处理 popl 指令 □ 吋以参考实验资料获得 

如何为你的解答生成模拟器以及如何测试模拟器的指导。 

练习 题答案 

练习題 4.1 答案 

手工对指令编码是非常乏味的，但是它将巩固你对汇编器将汇编代码变成字节序列的理解。在 
下面这段我们的 Y86 汇编器的输出中，每一行都给出了 个 地址和一个从该地址开始的字竹序列。 

1 [)x100 ： 

2 0x100: 30830f000000 

3 0^106 ： 2031 

4 0x108: 

b 0x108: 4013：dffffff 

6 OxlOe ： 6031 

7 0x110: 7008G100D0 ! 

这段编码有些地方值得注意： 

• 十进制的15 (第2行）的 1- 六进制表小为 OxOOOOOOOf。 以反向顺序来写就是 OfOOOOOO。 

* 十进制 -3 〔第5行）的十六进制表示为 0x_Td。 以反向顺序来写就 fdffffff。 

• 代码从地址 Ox 100开始，第条指令需要6个字节，而第二条需要2个 字节。 因此，循环 

的 F1 标地址为0x00000108。以反句顺序来写就是08 01 00 00。 

练习题 4.2 答案 

手丄对个字彳 V序列进行解码能帮助你理解处理器面临的任务。它必须读入字节序列，并确定 
该执行什么指令。接卜来，我们给出的是用来产生每个字节序列的汇编代码。在汇编代码的左边* 
你 n」 以看到每条指令的地址和字节宇列 D 

A . 带立即数和地址位移的操作。 

0x100 ： 3033Icf£ffff i 
0x106; 40630Q08000U I 

0x10c： 10 I 

B. 包含一个凼数调用的代码。 

0x200 1 a068 I 

0x202； 8008020000 I 


■ pos DxlOO 共 Start generating code at address 0x100 

I irmovl $15, 

rrmovl %ebx,%ecx 


loop: 


rnmovl %ecx, -3 (%eb>0 
addl %ebx,%ecx 

jtnp loop 


irmovl $-4 r %ebx 
rnunovl %et?i / Ox8CO f %ebx ： 

halt 


pushl %esi 
call proc 
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0x207: 10 

0x208: 

0x2C8; 30830a000030 

0x2Ce: 90 


halt 


Iproc : 


irmovl $10 f %ebx 

iet 


C. 包含非法指令指水字节 Oxft) 的代码 5 


Ox3CO: 505407000030 
0x3C6j 00 
0x307: fO 
0x308: b018 


mrmovl 7 (%espf f %ebp 
nop 

.byte Oxf 0 # invalid instruction code 
popl %ecx 


D, 包含一个跳转操作的代码。 


0x400 : 

0x400; 6113 
0x402: 7300040000 
0x407 ： 10 


loop ： 


subl %ecx ^ %ebx 

j e loop 

halt 


E. pushl 指令中第二个字节为非法的代妈。 


0x500; 5362 
0x502 : a0 
0x503 : B0 


xorl %esi f %edx 

.byte OxaO # pushl instruction code 
.byte Cx80 # Invalid register byte 


练习題 4.3 答案 

ih 二如题 H 中建议的邵样，我们修改了 IA32 机器上的 GCC 产生的代码 


# mt Sum {int *Start^ int Count) 
rSum: pushl %ebp 

rnt\ovl %ebp 

irmovl $2C,%eax 

subl %eax f %eso 

■ — 

pushl %ebx 

mrmovl 3(%ebp) P %ebx 

mrmovl 12(%ebp), 

artdl %eax 

jle L3 8 

irmovl $-8 p %edx 
addl %edx f %esp 

irmovl $-1, %e>lx 
addl %edx,%eax 
pushl %eax 
irmovl $4,%edx 

rrmovl %ebx,%eax 

L 

addl %edx,%eax 
pushl %eax 
call rSuxn 
mrmovl (%ebx) f %edx 

addl %edx f %eax 
jmp Ij39 

xorl %eax f %eax 


L38: 
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mrmovl -24 > ； %obp) . %ebx 

rimovl ^ebp,%esp 

pool %sbp 

Eet 


练习题 4.4 答案 

虽然很难想像这条指令有仆么实际用处 ， 卜!是在设计系统时，避免在这种情况中出现歧义是非 
常 f 要的.我们要为这条指令的 行为 确定-■种合理的解释惯例，并确保每个实现都遵守 f 这个惯例。 

这个测试中 sub ] 指令比较了％£印的初始 值和扭 入栈中 的值。 相减的结果为0,这表明枨入栈屮 
rj ^：% esp 原来的假。 

练习题 4.5 答案 

更难以想 像会夼 人想要将栈顶值弹出到浅指中。不过，我们还是要确定一个惯例并遵循它。 
这个代码宇歹 L 将 tvalK 入桟中，再弹出到7^^屮，力返回弹出的佾，既然结果等 f tvah 我们吋以 
推断出 pqil % esp 应改足将栈指计设置为从行储器屮谅出的值。芮此，它等价于指令 mrmov 1 

0(%esp )j 

练习题4+6答案 

EXCLUSIVE-OR (异或）的数要求两个位冇相反的值： 

( : a b) 

通常，伊 号叫和 xa 是互补的。也就是，，个等于1， M —个就等于 (K 

练习题47答案 

EXCLUSIVE - OR 吧路的输出足位相等值的补，根据德摩根定律（图 2,7) f 我们能用 OR 和 NOT 
tM AND ，得到如 F 电路： 




bool 


I a hL&. Ib ) : 


ec 




b 3 i — 


i 


Xor 


Sh"L 


30 


et l 30 


Xor 


a 


30 


Eq 


t>i 


eqi 


Xor 


士 一 


Xor 




练习题今 8 答案 

这个设 i「R 足对从•:八输入巾找 出迠小 值的设 彳| 做/点简申 的改变 


丄 nt Med3 


m 
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A <- B &；& B <= C 


B; 


B A 8t&. A <- C : A 


: C ; 


练习睡 4.9 答案 

这些练习使各个阶段的计算更加具体。从口标代码中我们吋以看到，指令是位 T 地址 OxOOe 的。 
它包含6个字节，前两个字节为 0 x 30 和 0 x 84, 后四个字节是 0 x 00000080 (十进制 128) 按字 W 反 
过來的形式。 


酐 ft 


通用 


具体 


irmovl 


S12fi, %esp 


irmcv 


ft 拍 


icode：ifun - Mi [PC] 

rA:rB - Mi[PC+1] 
valC — M 4 fPC+2] 
valP — PC+e 


icOde;ifun — Mi[ 0 x 00 e]=j: 0 


rA:rB — Mi[0?tOOf]=S : 4 


vale — M 4 [0x010]=128 


valP — 0x00e+6=0?t0i4 




m 


valE 〜 0+valC 


vatE 


0+126-123 


■ 


访 H 


写回 


R[rB] - valE 




— valE -123 


Xff 


PC - valP 


PC ^ vaJP = 0x014 


这个指令将寄存器设为128,并将 PC 加6。 

练习题 4.10 答案 

我们可以看到指令位于地址 0 x 01 c , 有两个字节，值分别为 OxbO 和 0 x 0 心 pushl 指令（第 6 行) 
将寄存 ^% esp 设为了 124,存储器书该位置存储着的值为9。 


»段 


晒 


具体 


popl rA 

icodeifun Mi[PC] 

M![PC+1] 


popl %eax 

fifun — 灿 lc]=b: D 

— M ![0>：01 d ]^0 : 8 




「 A:rB 


valP 二 PC+2 

valA 一 R[%es^] 

valB 一 R[% esp] 

vatE — valB+4 


valP 〜 G?c01c+2-0xGle 

valA — R[%esp]-12 4 
valB — R[%esp]=12 4 

124+4=128 


tm 


valE 




切存 


valM - ^[vaJA] 

R[%esp] valE 

R[rA] ^ valM 


valM - M 4 [124]= 
_ 

R [% esp ] — ]28 

R[%esp] 9 


写回 


valP 


PC 


xUlo 
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该指令将％£狀设为 9 t w%esp 设为128,并将 PC 加2。 

练习颐 4.11 答案 

沿着图4」8中列出的步骤，将 rA 看成 ％es Pl 我们 nf 以看到，阶段 T 指令会将 valA (即 
栈指钋的原始値）存放到存储器中， W 我们 tiMA32 中发现的一样 ： 


练习颐 4.12 答案 

沿着图 4.1S 中列 H 的 步骧， 将 r A 看成 ％esp. 我们吋以看到，两个3回操作都会更新5^叩。因 
m vulM 的操作后发生，指令的 M 终效臾会是将从存储器屮读出的值弓入 ％esp， 就像在 1A32 中看 
到 的，。 


练习题 4.13 答案 

我们可以看到这条指令位于地址0x 023，度为5个字节。第个字节值为0 x 80,啲启面4 
个宁V』是0x00000029,即调用的 H 标地址按字节反过的形式。 popl 指令（第7什〕将栈指计设为 


128 


阶 ft 


酬 


跡 


call Dest 


call 0x025 


取指 


icoda:ifuf> 


M ^ PC ] 


icode:ifun — Mi[0kG23]=5：o 


valC — MJPC+1] 
valP — PC+5 


valC — M^[0x0243=0x029 

valP - 0x02^5=0x023 


valB — R[^e&o] 
valE - valB+-4 


va 旧一 Rt%esp|-12a 

\ 28 ^- 4 =± 2^1 


valE 




访存 


M^valE] valP 

R[%esp] valE 


M ^124] g ^028 

R [4 p & p ] 12^3 


写回 


St # pc 


PC 〜valC 


PC 


GxC 29 


这条指令的效果就是将％^叩设为 124, 将 0x028 (返冋地址）存放到该#储器地址，并将 PC 
设为 0x029 (调用的 n 标地 址)， 

练习题 4.14 答案 

练刃题中所有的 HCL 代码都很简单明了 f 佝是试着 [HdW 会帮助你思考各个指令， j 及如何处 
理它们。对于这个问题，我们只要看看 Y86 的指令集（图 4.2), 确定哪些冇常数字段^ 


bool need valC 


icode in t I 丄 RMOVL, IRMMOV 


1MRMOVT,, TJXX, ICALL }; 


练习题 4/(5 答案 

这段代码类似 PsrcA 的 代码: 
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int srcB 




icode in ( IOPL, IRMMOVL, IMRMOVL } : rB 
icode in { IPUSHL, TPOPL, ICALL, IRET } 

RHONE; # Don' t need register 


RESP; 




练习 S 4 J 6 

这段代码类似于 dstE 的代码 




int dstM 




iccde in ( IMRMOVL, IPOPL } 

RWOHE: # Don't n&^d register 


rA; 


1 


* 

■ 


练习题 4.17 答案 

像我们在练习题 4.12 中发现的那样，为了将从#储器中读出的值存放到9^印.我们想让通 iiM 
端口写的优先级卨于通过 E 端口写。 

练习题 4.18 答案 

这段代码类似于 aluA 的 代码： 


■ 


int 


icode in { IRMMOVL, IMRMOVL, 10PL, ICALL, 

IPUSHL, IRET, IPOPL ) : valB 
icode in [ IRRMOVL, 11RMOVL } 

# Other instructions den 't need ALU 


0; 


练习题 419 答案 

这段代码类似于 mem _ addr 的代码: 


int mem data 


# Valae from register 

icode in { IRMMOVL, IPUSHL } : valA; 

# Return PC 

icode == ICALL : valP ； 

# Default ：： Don f t wz i tc anything 


练习租 420 答案 

这段代码类似 P memjead 的代码: 


bool mem write 


icode in ( IRMMOVL ； IPUSHL f ICALL }; 
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练习题 4.21 答案 

这个题11是个1卜常有趣的练它试图 /i: 一组划分中找到优化平 #!■= 它些求计笕许多流水线妁 
枰卟量和执行吋间。 

A , 对--个两阶段说水线来说，的划分足块 A 、 BflIC 仵第一阶段，块 D 、 E 和 F 在第—价 
段。第■阶段的延迟为 170ps， 所以整个阇期的时长为 170+20=190ps。 因此吞吐设为 5.26 GOPS， 

而执彳丁时別力 38()pi^ 

B + 对一个 .1 阶段流水线來说， S 该使块 A 利 B 在第-阶段，块 C 和 D 作第一阶段，而块 E 和 
F/h •第」阶段-前两个价段的延迟均为 HOps, 所以粮个周期时^:为 I30ps， 而吞叶 .t 为 7.69GOPS。 

执行叫间为 390ps. 

C. 对•个四阶段流水线朿说，块 A 为第•阶段，块 B 和 C4 第--阶段，块 D 适第一阶段， ifiJ 

块 E 和 F/i:_ 第冋阶段。第二阶段：踅 90ps, 所以輅个周朗时长为 llOph 旳吞吐哿为 9.09 GOPS。 
执1丁时 W A 440pb ； 

D. 最优内设讣心改昆 ft 阶段流水 线， 除7 E 和 F 处于 第打阶 段以外，从他每个块足-个阶段, 
周期时氏为80+20= iOOps, 糾 I.M 为人约 10.00 GOPS，1(1] 执行 IH 间为 500ps。 变成更多的阶段也不 

会有帮助了，因为小可能使流水线运行得比以 100ps 为一周期还茇快了。 

练习题 4.22 答案 

介这种极限怙况卜，流水线的每 ti> 兑块 的延迟邰为 

+20) 如汜阶段 t 堉变成任 t 人.^》趋[|1!丁_0,因此吞吐 M>J50.(X>GOPS 

练习题4,23答案 

这段代奶 只足给 SEQ 代码屮的信号名前加上前缀 “D^.' 


时钟周期为纤20 ps, 吞叶 .ft 为1000如 


c ns 


0 


1 r\t nov; K astJ l 


D_iccde i;: { IRRKOVL, : TIRMOVL TQ?I,} : D_rB ； 

D 上 CC.de in J TFOPI Jf ： RF： r r } : Rl£?; 

need register 


1 : hNOXt ：; 


Den 


练习题 4.24 答案 

山 j-pq>l 指令（第 4 彳 T) 造成的加裁 / 使用胃险， imovl 指令〔第5行）会軻停个周期。， 
它迸人解码阶段， popl 指令处于 A 4阶段，使 M.dstE 和 M.dstM 都等于％6印。如果两种怙况反过束， 
邪么來 M_valE 的％回优先级较卨，疗致增加 f 的栈指针被传送到 mm>W 指令作为参数。这 U 练 

习题 4.5「P 确定的处理 popl %esp 的惯例个一致。 

练习题 4.25 答案 

这个问跑 iL 你体验 * 卜处理 E 设计中一个很®要的任苏——为一个新处玴器设 it 洲试枰序。通 
常，我们的测试柠十应14能测试 所紅的 WK ^ j 能性，而 N . -11 肖相尤不能被汜确处? P , 就会产卞沿 
误 ffj 绍米、. 

刈 T 1 此例，我们 nj 以使 ffl 吋练习题 4.24 屮所 f 的秤 ff， 稍微修改了 • -点的版本： 
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1 


irmovl $ 5 , %edx 
irmovl $0x100 f %esp 
rmmovl %edx f 0(%esp } 
pcpl %esp 
nop 

nop 

rrmovl %esp f 


4 


两个 nop 指令会导致当 rrmovl 指令在解码阶段中时， popl 指令处于写回阶段。如果给予处于写 
回阶段中的两个转发源错误的优先级，那么寄存器 ％eax 会设置成增加了的程序计数器，而不是从存 
储器中读出的值. 


练习題4,26答案 

这个逻辑只需要检查五个转发源: 


int new E valB 


# Forward val£ from execute 

# Forward valM from memory 

# Forward valE from memory 

# Forward valM from write back 

# Forward valE from write back 

# Use value read from register file 


d src3 


e_valE; 

M valE; 
W_daLM i w_valMf 

W valE f 


E dstE 


■ 

■ 


d src3 


M dstM 


: m 


d src3 


M dstE 


■ 

4 


dsrcB 


d src3 


W dstE 


p 


1 ; d rvalB 


练习题 4.27 答案 

下面这个测试程序是设计用來建立控制组合 A (图467 乂 并探测是否出了错 


# Code to generate a combination of not-iaken branch and ret 

irmovl Stack, %esp 
irmovl rtnp,%eax 
pushl ieax 
xorl %eax,%eax 
jne target 
irmovl $1,%eax 

halt 

target : ret 


轉 Set up return pointer 

# Set Z condition code 

# Not taken (First part of combimtiof\) 

# Should execute this 




# Second pan of combination 
irmovl $2 , %ebx # Should not execute this 
halt 

i irmovl $3 , %edx 梓 Should not execute this 
halt 


10 


11 


12 


rtnp; 


13 
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14 


.pos 0x40 

St ^ ck : 


设 i | •这个裎序是为 r 出错（例如实&卜-执行了 指令）时，程序会执行条额外的 kmovl 指 

令，然后停 lh 。 囚此，流水线屮的错误会导致某个 寄存器 更新错误。这段代码说明实现测试程序需 
要化常 小心。它必须珪立起町能的锫误条件，然后冉探测是否冇错误发生。 


练习题 4.28 答案 

下面这个测试程序是设 it ffl 来建立控制组合 B (图 4.67) 的。模拟器会发现流水线寄存器的 H 
抱和暂停控制信号都设置成0的情况，因此我们的测试程序只需要建立它需要发现的组合情况 。 S 
大的挑战在 T 3 处理 E 确时，程序要做正确的事情= 


# Tesr hjstruaion that modifies 9cesp followed by ret 

irmovi mem,%ebx 

mrrrov 1 0 ( %ebx) P %eyp 掉 Sets %esp to point to return pom! 

# Returns io return point 


i e 


halt 

itnpi: : irmovl $5 , %esi 

halt 


# 


轉 Return point 


.pos 3 x 40 


long stack 


轉 Holds desired stack pointer 


mem : 


,pos 0x50 

stack : 


- long itnpr 


# Top of stack: Holds reium point 


这个程序使帀 / 存储器中两个初始化，的字，第个字 （ mem ) 保存看第_:个字 （ smck —— 期 
望的浅指针）的地讪。第二个字保存着 ret 指令期望的返回点的地址 D 这个程啐将栈指针加载到 ％ eS p ， 

jt 执彳丁 ret 衔令。 


练习题伞 29 答案 

从图 4.66 我们可以看到，由 Hjfl 载/使用胃险，流水线寄存器 D 必须饵停 


boo_ D stdll 


^ Conditions for a ioad/usc hazard 

code in { : mrmovl, IFOPL ) “ 
E_dstM in ( d_srcA f d_srcB }； 


练习题 4.30 答案 

从阁 4.66 屮我们 nj _ 以看到，山于加载/使用胃险> 或者屮十分支预测错误，流水线寄存器 E 必 
须设置成气泡： 

hoo" E bubble = 


杏 Mispredicced branch 
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(E^icode : JXX && !e_Bch) II 

# Conditions for ^ lo^.d/use h3.z3.rd 
E_icode in { IMRMOVL, IPOFL } 认 

E_d&tM in ( d_srcA, d_srcB ； ； 


练习题 4.31 答案 

此时，预测错误的频率是 a 35, 得到 mp 二0.20 X 0.35 X 2=0.14,而粮个 CPI 为1.25。看上去收 
获非常小，但是如果实现新的分 女预测 策略的成本不是很岛的话，这样做还是值得的。 
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编写高效程序耑要两类活动：第一.我们必须选择一组最 w •的算法和数据结构 ：第 ―， 我 r 必 

须编写山编 讦器能 够有效优化以转换成高效可执行代码的源代码。对这第_部分 . 理解优化编泽 
器的能力和洶限 忡是很 重要的 D 就我们所知，编写稈序方式中•点小小的变动，都会引起编译器优 
化方式 很人的变化。有些编程语言比莫他语言容易优化得多 4 c 的有些特性，例如执行指针运算和 
强制类型转换的能力，使得对它优化很闲难。程序员势常能够以 -- 种使编译器更容易 产生岛 效代码 
的方式来编写他们的程序。 

迮稃序开 发和优 化的过程中，我们必须考虑代码使用的方式，以及影响它的关键因索。通常， 

程序员必须在实现和绯护枵序的简单性与它的运行速度之间做出权衡折衷。在算法级 1_, /L 分钟就 
能编写一个简叭的桶入排序，而 一 个高效的排序算法枵序町能需要一天或更长的时间宋实现和优化。 

在代码级 h, 许多低级别的优化往往会降低程序的 Rj 读性和模块性，使得程序苒易出错，更难以修 
改或扩展。对于一个只会运行一次以产生一组数据点的枵序，以一种尽量减少编秤 i 作量并保证 m 

确性的力式来编写程序就更 为重要 一碑。对 r •会在 性能非常重要的环境中反复执行的代码，例如网 
络路由器，通常更广泛的优化会适3 -%。 

江本章中，我们描述许多提高代码性能的技术。理想的情况是 t 编译器能够接受我们编写的任 
何代码，并产生敁「」_能高效的、具有指5：行为的机器级程序 。 事实 h 编译器只能执行有限的枵序 

转换，而 FI 妨碍优化的因素 （optimizationblocker) 述会阻碍这种优化 ， 妨碍优化的因素就是程序汀 

为中那些严 m 依赖于执打环境的方面。程序员必须编写容易优化的代码，以帮助编译器。就编译器 
来说，编译技术被分为 机器尤关”和 “ 与帆器有关”两类。“与机器无关 " 的意思是，使用这些 

技术时叼以小考虑将执行代码的 汁算 机的特性，而 机器有关”是指，这些技术是依赖于许多机 

器的低鈒细 \ m , 我们的讲述也沿用/类似的顺&先 讲编写 任何程序时都要执行的标准稃序 转换， 
然后讲效牟依赖 f h 标机器和编译器特件的转換。这些转换通常还会降低代码的模块性和句读性， 
因此，应该在获得 敁大性 能足旨_要目标吋，才使用这也技术 ， 

为了使程序性能最大化，程序 员和编 译器耑要一个[I标机器的模型，指明如何处理指令，以及 
各个操作的时序特性。例如，编译器必须知道时序信息，才能够确定是需要•条乘法指令，还是移 
位和加法的某种组合。现代计 t 机用复杂的技术来处理机器级程序，并行执行祚多指令，而吐执行 
顺序还吋 能不冋 于它们在程序中出现的顺序 4 程序民必须理解为了获得最大的速度，这些处理器是 
如何工作来调整程序的。基于 Intel 处理器的最新模型，我们提出了 - _ 个这种机器的岛级模型。我们 
还设计了一种图形表戒? i, 句以用東使处理器执行指令形象化，并且还町以预测程序性能。 

我们以对优化欠型稃序的问题的讨论来结朿这-章。我们描述了代码釗析程序 Cprorilm) 的使 
用，代码剖析秤序是测量程序各个部分性能的工具。这种分析能够帮助找到代码中低效率的地方 ， 
井且确定秤序中我们应该着重优化的部分。最后，我似给出了一个重要的观察结论 C 称为 Amdahl 
定律) ， 它量化 r 对系统某个部分进行优化所带来的整体效果 & 

么本章的描述中，我们使 得代码 优化看起来像按照某种特殊顺序，对代码进行一系列转换的简 
午-线性过程。实际上，这项工作远 ir 这么简单。需要相当多的试错法试验。 a 我们进行到后曲的优 
化阶段 r, 这种方法尤艽有用，到那时，看上去很小的变化会导致性能 t 很大的变化。相反， 

很 ■/] 希望的技术被证明是无效的。 IE 如我们在后面的例了中看到的那样，要确切解释为什么某段代 
码序列冇某个执行时间，是很困难的。性能 nj 能依赖于处理器设计的许多洋细特性，而对此我们所 
知甚少。这也是我们尝试各种技术的变形和组合的另一个原因。 


一此 
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研究汇编代码是理解编译器以及产生的代码会如何运行的最有效的手段之一。仔细研究内循环 

的代码是一个很好的开端。人们可以确认降低性能的属性，例如过多的存储器 （memory) 引用和对 

寄存器不正确的使用。从 C 编代码开始，我们其至可以预测什么操作会并行执行，以及它们使用处 
理器资源的效率如何。 


5.1 优化编译器的能力和局限性 


现代编译器运 用复杂 精细的算法来确定一个程序中计算的是什么值,以及它们是被如何使用的。 
然后它们会利用一些机会来简化表达式，也就是在几个不同的地方使用个计算，以降低一个给定 
的计算必须被执行的次数。编译器优化程序的能力受几个因素限制， 包括： 要求它们铯不能改变正 
确的程序行;^它们对稈序行为、对使用它们的环境了解 有限； 需要很快地完成编译工作。 

编译器优化对用户来说应该是+可见的。当程序员用优化选项（例如，使用 -0 命令行选项）编 
译代码时，代码的行为应该和不带优化编译得到的代码行为完全一样，除了它应咳运行得更快一点 
以外 D 这样的要求使得编译器不能使用某些类型的优化。 

例如，考虑 K 面这两个 过程： 


void twicdlel(int *xp ； int *yp) 


xp 十二 ^yp ； 
xp i= *yp ； 


void twiddle2(int *xp f int *yp) 


8 


xp 


YP ； 


10 } 


乍一看，这两个过程似乎有相同的行为。它们都是将存储在由指针 yp 指小的位置处的值两次加 
到指针 xp 指示的位置处的值。另…方面，函数 twiddle2 效率更高一些。它只要求二次存储器引用 
(读 *xp, 读、，甲 xp), 而 twiddlel 需要六次（两次 读 +xp， 两次读* yp , 两次写* xp)。 因此，如 
果要编译器编译过程 twiddle 1,我们会认为基于 twiddle2 执行的计算能产生更有效的代码。 

不过，考虑一下 xp 等于 yp 的情况。此时，函数 twiddlel 会执行卜面的计算 r 

3 *xp 


xp ； /* Double value at xp V 

xp; /* Double value at xp */ 


+ = 


xp +- 


结果会是 xp 的值增加 4 倍。另方面，函数 hviddle2 会执行下面的计算 

9 + xp 

结果会是 xp 的值增加3倍。编译器不知道 twiddlel 会被如何调用，因此它必须假设参数 xp 和 

yp 可能会相等。因此，它不能产生 twiddle2 风格的代码作为 twiddlel 的优化版本。 

这个现象称为存储器别名使用 （memoiy aliasing)。 编译器必须假设不同的指针可能会指向存储 

器中同一个位置 □ 这造成了个主要的妨碍优化的因素，这也是可能严重限制编译器产生优化代码 
机会的程序的一个方面. 


2* *xp; /* Triple value at xp */ 
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练习 

下面的问趙说明了存储器别名使用可能会导致意想不到的程序行为的方式 & 考虑下面这个交换 
两个值的过程： 


/* Swap value \ at xp with value y at yp 

void sv/ap (i nt + xp f int *yp> 


1 


yp ； /* x±y *1 

yp; /* x+y-y = x */ 

yp ； /* x+y-x = y 


4 


xp = T xp 


5 


yp 




6 


* 


* 




xp 






7 


如果调用这个过程时 xp 等于 yp ， 会有什么样的效果 
第二个妨碍优化的因素是函数调用。作为一个示例，考虑 K 面这两个过稈: 




int f(int ) ； 


1 


3 


int fur.cl (x) 


5 


return f ； x) 


f (x) 


fix) 


f ( x )； 


+ 


4 - 


6 


int func2(x) 


4 + f (x! ? 


return 


11 


最初看 i : 去两个过程计算的都是相同的结果，但是 ftmc 2 只调用 f 一次，而 fund 调用 f 四次, 
以 fund 作为源时，会很想产生 func 2 风格的代码。 

不过，考虑下面 f 的代码： 


inL cuunLer 


int f (int x) 


return counter ++； 


这个 ® 数有个副作用——它修改了全周程序状态的一部分 t 改变调用它的次数会改变程序的行 

为。特别地 T 假设开始时全局变量 counter 都设置为0,对 fund 的调用会返回0+1+2+3=6,而对 func 2 
的调 ffl 会返回 4〔 M )。 

大多数编译器不会试图判断一个阁数是否没有副作用，因此任意函数都可能是优化的候选者， 
例如 ftmc 2 中的做法。相反，编译器会假设最糟的情况，并保持所有的函数调用不变。 

在各种编译器中， GNU 编译器 GCC 被认为是胜任的，但是就它的优化能力来说，并不是特别 
突出 □ 它完成基本的 优化， 佝是它不会对程序进行更加“有进取心的”编译器所做的那种激进变换. 
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® 此，使用 GCC 的程序员必须花费更多的精力，以一种简化编译器生成高效代码的任务的方式來 
编写程序。 


5.2 表示程序性能 

我们需要一种方法来表示程序性能，它能指导我们改进 代码。 对许多程序都很有用的度量标准 
是每元素的周期教 (cycles per element , CPE ), 这种度量标准帮助我们在更详细的级别 1: 理解迭代 
程序的循环性能。同时，这样的度量标准对执行重复计算的程序来说也是很适当的，例如处理图像 
中的像素，或是计算矩阵乘积中的元素。 

处理器活动的顺序是由时钟控制的，时钟提供了某个频率的规律信号，要么甩 兆赫兹 （ MHz ， 

即百万周每秒）来表示，要么用千兆接兹 （ GHz ， 即吉周每秒）来表示，例如，一个系统有 “1.4 GHz ” 

处理器，这表尔处理器时钟运行频率为1400兆赫兹。每个时钟周期的时间是时钟频率的倒数，通常 
是用纳秒 （ nanosecond ， f 亿分之一秒）来表示的。一个 2 GHz 的时钟其周期为0,5纳秒，而 500 MHz 

的时钟，周期为2纳秒，从程序员的角度来看，用时钟周期来表示度量标准要比用纳秒来表示有帮 
助得多。用时钟周期來表示，度景值不太依赖于被评估的处理器的模型，而这些度 t 值能帮助我们 
确切池理解机器是如何执行程序的。 

许多过枵含有在-组元素上 迭代 1 的循环。例如，图 5.1 中的函数 vsuml 和 vsiim 2 计算的都是 
两个长度为的向量之和。第〜个函数每次迭代计算目标向童的一个元素9第二个函数使用称为循 
环展矛 (loop unrolling ) 的技术，每次迭代计算两个元素。这个版本只对^为偶数值有效。在本章 
后面，我们将更详细地介绍循环展开，包括如何使它对任意 n 的值都有效。 

这样一个过程所需要的时间可以用 j 个常数加上一个与被处理元素个数成正比 的因了 来描述。例 
如，图 5.2 是这两个函数需要的每元素的周期数关于; 1 值的取值范围图，使用最小二乘方拟合 （kast 
squads fit ), 我们发现，两个函数的运行时间(月时钟周期表水)分别近似于表迖式80+4, Ori 和 83.5+3.5/1 
的线条 & 这两个表达式表明初始化过程、准备循环以及完成过稈的开销为80〜84个周期加上每个元 
素 3 J 或 4.0 周期的线性因子，对于较大的 n 的值（比如说，大于 50), 运行时间就会主要由线性因子 
来决定。我们称这些项中的系数为每元素的周期数（简称 CPE ) 的有效数。注意，我们更愿意用每个 
元素的周期数而不是每次循环的周期数来度量.这是因为像循环展开这样的技术使得我们能够用较少 
的循环完成计算，而我们最终关心的是，对于给定的向鼋长度，程序运行的速度如何.我们将精力集 
中迮减小我们计算的 CPEl 。 根据这种度量标准， vsum 2 的 CPE 为 3*5, 优 f CPE 为 4.0 的 vsuml 。 


cod^/opt/vsum,c 


1 void vsuml(int n) 


int i; 


for (i = 0; i < n; i++) 

c[i] = a[i] + b[i]; 


i 本章中的迭代指执 行一遍 组成循环的语句坱 。—— m 
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9 Sum vector of n elements (n must be even ) *t 

10 void vsum2 (int n) 


11 


int i ； 


12 


13 


for (i = 0; i < n ； i+=2) { 

/* Compute two elements per iteration */ 

c [ 丄]二 a[i] + bLi]; 

c[i+l] = a[i 十 1] + b[i+l]; 


14 


15 


17 


ie 


19 


code / opt / vsum . c 


5.1 向置求和函数 


Li 


这是大十我 们如何 表示枵 序性能 的示例 。 


1000 


900 


800 


vsuml 


700 


Slope = 4.0 -— 


600 


m 


vsum2 


500 


Slope ^ 3,5 


0? 


400 




300 


200 


100 


0 


200 


0 


50 


100 


150 


元素数 


向置求和函数的性能 


两条线的斜率 表明毎 元素的周期数 CCPE)o 

旁注：什么是最小二乘方拟合？ 

对于—个数据点的集合，我们常常试图画一条线，它能最接近于这些数据代表 
的趋势，使用最小二乘方拟合，我们寻找一条形如 y = + * 的域，使得下面这个误差度量最小： 

E ( m , b ) = 


2 


i=ljt 


计算 m 和6的算法可以通过找到 E [ m ， fr ) 关于 m 和 fc 的导数推导出来, 


练习題 5.2 

在本章后面，我们会采用一个函数，生成许多不同的变种，这些变种保持函数的行为，又具有 
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不同的性能特性，对于其中三个变种，我们发现运行时间（用时钟周期表示）可以用下面的函数近 
似地估计： 


版本 1 60+35« 

版本2 136+4/1 
版本3 157+1.25^ 

每个版本在《取什么值时是三个版本中最快的？记住，/!总是整數, 


5.3 程序示例 


为了说明一个抽象的程序是如何被系统地转换成更有效的代码的，考虑图5,3听示的简单向量 

数据结构。向量由两个存储器块 表小、 头部是一个声明如下的 结构： 




产 Create abstract data type for vector 

typedef struct ( 

int len ； 
data L *data; 

*vec_ptr ； 


S 


v^c rec 


p 




length -1 


0 


2 


length 

data * 


5.3 向*的抽象数据类型 


向量 ti 头 If ； 息加 L 指定长度的数 组米表 


这个声明用数据类塑 data_t 作为基本元素的数据类型。在我们的评价中，我们度童我们的代码 
对于数据类型 int、float 和 double 的性能。为此，我们会分别为不同的类型声明编译和运行程序， 
就像下囱这个例子中-样 r 


typedef int data_t 


除了头以外，我们还会分 Od —个 leri 个 dataj 类型对象的数组，宋存放实际的向量 厂素。 

图5,4给出的是一些生成向景、 i 方问向量元素以及确定向量拴度的基本过稈。 一 个值得注意的 
重要特性是 g e t_vec_dement， 向量访问程序会对每个向童引用进行边界检查。这段代码类似 P 许多 
其他语言（包括 Java) 所使用的数组表示法，边界检査降低了程序出错的机率，但是正如我们看到 
的那样，它也明显影响了程序性能 e 

作为一个优化示例，考虑图 5.5 中所小的代码，它根据某种运算，将一个向童中所有的元素合 
并 (combining) 成一个值，通过使用编译时常数 IDENT 和 OPER 的X同定义，这段代码吋以重编 

译成对数据执行不同的运算。特别地，使用 声明： 


#define IDENT 0 

#de£ine OPER + 


它对向量的元素求和。使用声明 


#deEine IDENT 1 
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#define OPER 


它计筇的是向景元素的乘积 t 

作为一个起点 T 下面是 combine 1的 CPE 度 tt 值，它运行在 Intel Pentiurnffl h , 尝试/数据类 

型和合并运算的所有组合，迮我们的度量值中，我们发现学.、双精度浮点数据的时间基本上是相等 
的。因此，我们只给出对学.精度浮点数据的度量值。 


S 数 


浮点教 




方法 


宋优化的抽象的 
抽象的 -02 


329 


ComLinel 


42.06 


41 M 


41.44 


160,00 


329 


31.25 


Combinyl 


33,25 


31.25 


143.00 


code/opt/vec. c 


/* Create vector of specified length 

vec_ptr new_vec(int len1 


/* allocate header structure 

vec_ptr lesult 

if (!result) 

return NULL ； /* Couldn + t allocate storage */ 

ler .； 


5 


vec_ptr) malloc(sizeof(vec_rec)) : 


result:->len = 

/* Allocate array */ 

if (1 en > 0] { 

data_t *data 

if (!data) { 

free ((void *) result); 

NULL ； Couldn 1 t allocate storage V 


10 


11 


(data_t *)calloc(len, sizeof(data_t)); 


12 


13 


14 


ret jin 


15 


16 


result->data = data ； 


17 


«■ 


e_t>e 


19 


result->data = NULL 
return result; 


20 


21 } 


22 


S3 


24 




Retrieve vector element and store at dest . 
Return 0 (out of bounds ) or 1 ( successful ) 


丰 


25 


26 


27 int geL_vec_element(vec_ptr v, int index, data_t *dest) 

28 { ~ 


29 


if (index <011 index 

return 0; 

*dess: - v->data [ index]; 

return I ； 


v->len) 


>- 


30 


31 


: 


33 


U 


/* Return length of vector */ 


35 
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36 int vec__length (vec_ptx: v) 


37 


38 


return v->leri; 


39 


code/opt/vec, c 


5.4 向量抽象数据类型的实现 


U 


在实际程序中，数据类型 被卢 明为 mu float 或 double □ 


code/opj/combine. c 


t* Implementation with maximum use of data abstraction */ 

void ccmbirtel ivec_ptr v f data_t *dest) 


1 


4 


5 


*dest 


I DENT 




£or fi = 0 ； i < vec_length(v) ； i+ 十 ） { 

data_t val ； 

get_vec_elemer\t (v 

Mest 


7 


8 


&val); 


10 


dest OPEF val; 


女 




11 


12 


code/opt/combine.c 


图 5.5 合并搡作的初始实现 

使用痒识元素 〖 DENT 和合并运算 OPER 的 + 同卢明，我们可以测置该甬数对不同 运霣的 性能。 


畎认地，编译器产生适合于用符号调试器-■步-步调试的代码 D 因为 H 的是使 H 标代码尽可能 

类似于源代码中表明的计算，所以几乎没有进行什么优化。简单地将命令行开关设置为 “-02”，我 

们就能进行优化了，正如看到的那样，这显著地提髙 f 程序性能。通常，养成进行这一级优化的习 

惯是很好的，除非编译程序就是为 r 要调试它。对于我们剩 f 的度暈 t 我们都进行了这一级别的编 
译器优化。 


还要注意，除： r 浮点数乘法以外，对于各种数据类型和 不同运 算的时间基本上都是同等的。浮 
点数乘法有很高的时钟周期数是由于我们基准程序数据中的异常，找出这样的异常是性能分析和优 
化的一个重要组成部分 & 我们会在 5.11.1 节中回过来讨论这个问题。我们会看到可以人幅度地提髙 
它的性能. 


5.4 消除循环的低效率 


可以观察到，过程 combine 1调用函数 vecjength 作为 for 循环的测试条件，如图5+5所示，回 
想-下 我们对循环的讨论，每次循坏迭代时都必须对测试条件求值。另-方面，向量的长度并不会 
随着循环的进行而改变。因此，我们只需计算一次向量的长度，然后在我们的测试条竹中使用这个 


值 


5+6给出的是一个修改的版本 * 称为 combine2, 它在开始时调用 vecjength, 并将结果賦值 
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给局部变 M length , 然后，在 for 循环的测试条件中使用这个局部变量。令人惊奇的是，这个小小的 

改动明显地彤响了程序性能。如卜表所小，通过这个简单的变换，我们为每个元素消除/人概 
10个时钟周期。 
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页数 


方法 


抽象的 -02 
移动 vcc Jengih 


329 


31.25 


33.25 

2125 


combine ] 

C)mbine2 


3U5 


143.00 

135.00 


330 


22.61 


2M5 


5.6 改进循环測试的效率 

通过把对 vecje 吨 th 的-周用移出揷坏*|试，我们个 ft 涫要毎次迭代时都执行这个确数， 


t-1 


code/op i/comh irt^c 


/* Move call to vec Jength out of loop */ 

void combine 2 (vec』>tr 


1 


2 


data_L *dest) 


v 


4 


int i ； 


int 1ength = vec_length(v )； 


dett 


IDENT ； 

◦; i < length ； i++)( 
data._t val ； 


■ 


= or 




10 


get_vec_e_ement(v, ：, &val) 
*des t 


11 


dest 0?EH val; 




12 


13 


code/opt/com bine/ 


这个优化是类常见的、称为代码移动 （code lotion) 的优化实例。这类优化包 括识别 出要执 

行多次（例如，在循环里）但是计算结果不会改变的计算，因 而我们可以 将计算移动刊代码前面的、 
不会被多次求悄的部分。在本例中，我们将对 vecjength 的调用从循蚪内部移动到循坏的前由。 

优化编译器会试着进行代码移动，不幸的是，就像前面讨论过的那样，对于会改变在 哪中 :调用 

阁数或调用多少次的变换，编译器通常会11:常小心 □ 它们]、能可靠池发现个函数是否会有副作用， 

因而它们会假设函数会有副作用，例如，如果 vecjenglh 有某种副作用，那么 combine 1 fll combine2 

叮能就会有不同的行为 □ 在这样的情况中，程序货必须帮助编译器显式地完成代码的移动。 

作为 combine] 中肴到的循环低效率 的-个 极端例子，考虑图 5.7 中所承的过秤 lowerh 这个过 

程是模仿几个学生的闲数设计，他们的响数是作为一个网络编程项目的一部分提交的。这个过稈的 

0 的圯将/个 f- 符串中所有人写宁母转换成小写宇母。这个过程一步步地检查字符串，将每个人 
写字符转换成小写 宁符。 


code/opt/bwer c 


I* Convert string to lower case ： slow 

void lowerl(char *s) 
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int i ； 


5 


6 


for (i = 0; 

if (s[i] 

s[i] 


strlenis] ? i++) 

P A ' && s [1 ] 

N a ']; 


1 < 


} 


< = 


("A 


10 


!* Convert string lo lower case: faster */ 

12 void lower2(char + s) 


11 


13 


14 


int i; 

int leu 


15 


strlenis) 




16 


H 

1 / 


for (i = 0 ； i 

if (s[i] 


len; i+ 十） 

A' ^ s(i] 


IE 


I 


l Z l ) 


>- 


<= 


IS 


s[i] 




a 1 ) 


20 } 


21 


/* Implementation of library function strlen 

卜 Compute length of string V 

size^t strlen(const char 


22 


23 


24 


+ 


s 


25 


26 


int length = 3 ; 
while I- 1 \0 1 } { 

S + + ; 

length++; 


27 


2 S 


23 


30 


31 


return length 


32 


code/opi/lower c 


57 小写字母转换函数 




两个过程的性能盖别相大， 

调用库过程 strleii 作为 lowed 的循环 测试的 一部分。图 5.7 中也给出了 sirten 的一个简单的版本 D 

因为 C 中字符串是以 mill 结尾的字符序列， strlen 必须 一步一 步地检査这个序列，直到遇到 nu 〗 l 字 

符。对于一个长度为 / i 的字符串， strleii 所用的时间与打成正比。因为对 towerl 的 n 次迭代的每一 

次都会调用 strien , 所以 lowerl 的整体运行时间是字符串长度的二次项 4 

如图 5.8 所示，这个过程对各种长度的字符串的实际测最值验证了 h 述分析。 lowerl 的运行时 

间曲线图随着字符串长度的增加上升得很陡_ 6 该图的下部展示了八个不同长度字符串的运行时间 

(与曲线图中所示的有所不同)，每个 K 度都是2的幂数，可以观察到，对于 lowerl 来说，字符串 

长度每增加一倍，运行时间都会变为原来的四倍。这很明显地表明复杂度是二次的。对 f 一 个长度 
为262144的字符串， lowed 需要整整3」分钟 CPU 时间， 

除了我们把对 strlen 的调用移出了循环以外，图 5.7 中所示的 lower 2 与 lowerl 是一样的，这样 


int miniint x f int y) { 


return x < y " 


: y ; } 


50 


inweri 


o 


o 


50,000 


i oaooo 


150,000 


200,000 


£50,000 


宇符串长度 


字符 串长度 




石192 


163B4 


32 768 


65 536 


：31 072 


2fi2 144 


lowerl 


0.15 


0,62 


119 


12.75 


01 


186.71 


lower 2 


0.0002 


0,0 (MM 


0.0008 


0.0016 


0 . 00^1 


0.0060 


5.8 小写字母转换函数的性能比较 

E3 于循环结构的效率比较低，^来的 lowerl 的代码具有■■:次渐近 （asymptolic ) 复杂性.修改过的 , ower2 的代码竹 线性的 复*度。 

这个小 •例 说明了编程时一个常见的问题， 一个看 I•.去无足轻重的代码片断有隐藏的渐近低效率 
(asymptotic inefficiency), 人们町不希望一个小3字母转换函数成为程序性能的限制因素。通常 r 

会在小数据集 i : 测试和分析程序，对此 T lowerl 的性能是足够的。+过，当程序最终部署-好以后， 

过稈完全 pf 能被应用到--个有100万个字符的串上，对此 t lowerl 从头至尾会：要1个小时的 CPU 

时间。突然，这段无危险的代码变成了 ■个主要的性能瓶颈。相比较而言， bwer 2 会在1秒之内完 

成。人型编程项目中会出 现这 样的 fp ] 题，这样的故事比比皆是 D —个有经验的程序员[:作的一部分 
就是避免引入这样的渐近低效率 c 

练习理 5.3 

考虑下面的函教： 


250 


一来，性能有了显著改菩。对了•一个长度为262144的字符串.这个函数 只需要 ( X 006 秒——比 lowerl 

快了 30000 多倍。字符串 K 度每增加一倍，运行时间也会增加•倍——很显然复杂度是线件的 。对 
丁较长的卞符串，运行付间的改进会更人。 

在埋想的世界电，编译器会认 Hi 循坏测试中对 strlen 的每次调用都会返回相同的结旲，因此应 
咳能够把这个调用移山循环。这需要非常成熟完善的分析，因力 strleri 会检查字符串的元素，而随 
着 lowerl 的进行，这些值会改变。编译器需要探叫使字符串中的字符发生了改变，彳 n 是没有字 

符会从非荃变为零，成是反过来，从害变力非零 3 这样的分析远远超出了即使是最有野心的编译器 
的能力，所以程序员必须自 d 进行这样的变换。 
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H 

-OJ 

0 


50 


g 


S 


sndo 
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int ma>：( int x r int y) { return x 
void incr (int *xp f int v) { *xp + 

int square (int x) { return x*x; } 


y : x ； } 




y 


< 


V 


下面三个代码片断调用这些函数 


A . 


min(x, y) ? i < maxlx, y) ； iricr (&i, 1}) 

t + 二 square ( i); 

max [x f y} - 
t +- square{i); 

min(x, y )； 


for fi 


B. 


fcr (i 


1; i >= min(x f y) ; incrUi 


- 川 




C , 


ir.t low 

int high = max(x^ y) 




high; incriti, 1)1 


for {i - low; 

t +- square(i) 


l < 


假设 X 等于10,而 y 等于100。填写下表，指出在代码片断 A 〜 C 中四个函数每个被调用的次数。 


代码 


mm 


max 


ir>cr 


square 


A. 


B. 


5.5 减少过程调用 

像我们看到过的 那样， 过程调用会带来相当大的开销，而且妨碍大多数形式的程序优化。从 
combine 2 的代码（图 5.6) 中我们可以看出，每次循环迭代都会调用 g € t _ vec_eiement 来获取下一个 

向量元素。这个过程开销特别大，因为它要进行边界检查 6 在处理任意的数组访问时，边界检査可 
能是个很有用的特性，怛是对 combind 的代码做简单的分析，表明所有的引用都是可以避免的。 

作为替代，我们假设为我们的抽象数据类型增加一个函数 get . vec.start 0 这个函数返回数组的 
起始地址，如图 5.9 所示。然后我们就能写出此囹中 combind 所示的过程，其中的循环里没有函数 
调用。它没有用函数调用来获取每个向量元素，而是直接访问数组， 一 个纯粹主义者可能会说这种 
变换严重地损害了程序的模块性。通常.向鼋抽象数据类型的使用者甚至不应该需要知道向量的内 
容是作为数组来存储的，而不是作为诸如链表之类的某种其他数据结构来存储的，比较实际的程序 
员会根据 F 面的实验结果，说明这种变换的 优点： 


浮点 ft 


页数 


方法 


函 


移动 vec_length 

334 I 直接教据坫问 


corrbine2 

corribine ^ 


330 


20,66 2L25 2】.15 135.00 

6-00 9,00 B.00 117.00 


code/opi/vecc 




data_t *get_vec_start(vec_ptr v} 


2 


334 


return v->daba? 


—— code/optAec.c 
code/opt/comhine. c 


/* Direct access to vector data 

void combine3(vec_ptr 


1 


da.ta_t *dest 1 


v 




int l ； 


int length = vec_length(v) 
data t *daca 


6 


get_vcc_start(v )； 




dest = TDENT; 

or (i 


i < length ； i + +) { 
*dest OPER data ti]; 


10 


dest 




12 


code/opt/combine, c 


图 5.9 消除循环中的函数调用 

得刊的代码打速度比较快，足以损法些程序的模块 ft 为代 价的。 

改进最卨可以迗到 3.5X。 对 T 性能至关重要的程序来说，为 r 速度，经常必须要损害一些模块 
性和抽象性。如果以后需要修改代码，添加一些对所采用的变换进行 h 录的文朽是很明智的。 

旁注：表示相对性能 

表示性能改进最好的方法就是形如 TbWmtew 的比率，这 4 是原始版本所需的时间，而 Tfew 

是修改过的版本所需的时间 * 如果发生了实际的改进，它应该是一个大于 1.0 的数字，我们用后級 

来表示这样一种比率，珥子 to 3.5X w 读作 w 3.5 係' 

更加传统的表示 相对定 化的方法是百分比，在变化很小时，还是很有效的，但是它的定义十分 
含糊 • 玄应该是 100(Ii?W-rwwVTftew， 还是 ltKHroW-ThewVToW， 或是别的什么呢？此外，对子 
较大的变化，它就不邪么有帮 助了， iit tt 性能提高了 250% rt ft 简单的说性能改进因子为 3.5 要更难 
以理解一些 b 


5.6 消除不必要的存储器引用 


combine〗 的代码将合并操作计算的值累积在指针 dest 指定的位置。通过 检査被 编译的循环产1: 

的汇编代码，整数作为数据类型，乘法作为合并操作，可以看出这个属性，在这段代码中，寄冇器 
%ecs 指向 data，%eds 包含 i 的值 ♦ lfij%ed] 指向 desU 


combined: type:INT y OPER = * 

dest in %edi f data in %ecx, i in %edx, length in %esi 

hop: 


.L18: 


triovl (%edi ) , %eax 
imull {%ecx,%edx,4),%eax 
movl %eax,(%edi) 
incl %odx 


Read ^dest 

Multiply hy datafi} 
Write ^dest 


i++ 
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6 


cmpl %esi , %edx 

jl ,L18 


Compare i:length 
If < f goio hop 


指令 2 读取存放在 desi 中的值，指令4写回这个位置，这看上去是种浪费，因为正常情况 F, 
下一次迭代时指令2读取的值会是刚刚写回的那个值 

这就导致了图 5J0 中 combhie4 所水的优化，在这里，我们引入了一个临时变量 x, 它用在循环 
中存放计算出来的值，只有在循环完成之后结果才存放在* dest 中。正如 F 面的汇编代码所示，编译器 
现在卩了以用寄存器 ％eax 保存累积值，与 CO mbiiie3 的循环相比，我们将每次迭代的存储器操作从两次 
读和一次写减少到只需要一次读，寄存器 ％ecx*%edx 的使用和前面一样，但是不再需要引用* desu 


combined type-INT, OPER = * 

data in %eax t x in %ecx 7 i in %edx f length in %esi 

loop: 


.L 24 : 

imull (%eax f %edx f 4),%ecx 
incl iedx 
cmpl %esi,%edx 
11 *L24 


Multiply x by data[i ] 


Compare Uength 
If <, goto loop 


code/opt/combine, c 


/* Accumulate result in local variable V 

void combine4{vec_ptr v ； data„t *dest) 


int i; 


ins length = vec_length(v) 
da^a_t *data 

data t 


get_vec_start(v) 




I DENT; 


x 


*dest 

for (l =0; i < length; i++)( 

x - x OPER data[i]； 


I DENT; 




10 


11 


上 J 


dest 


x ; 


14 


code/opt/combine, c 


5J0 在临时变置中存放结果 


这便得每次循环迭代中不冉需要读和写中间值。 

我们看到程序性能有了显著的改善，如 F 表所示 


浮点教 




55» 


方法 


334 直接数据访问 

335 累积在临时变置中 


combined 


6.00 


9,00 


S .00 


U 7 O 0 


comt ] irie 4 


2加 


4.00 


3.00 


5.00 


F 降最快的是浮点数乘法的 时间。 它的时间变得和其他数据类型和操作的组合所用时间可比较 
了。我们会在 5.U.1 小节中检查这种迅速下降的原因 
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nj 能又南人会认为编译器应该能够自动将图 5.9 中所示的 combine3 的代码转换力仵寄存器中存 
放的那个值，就像图 5.10 中所小•的 CO mbine4 的代码所做的那样。 

然而实好上，由于#储器別名的使用，两个函数司能会有不同的行为.例如，考虑整数数据， 

iii 算为乘法，标识兀素为1的情况= v 是一个由二.个元素[2, 3, 5] 组成的叫董，考虑卜面两个函数调 


combines (v, get_vec_^tart(v) 
combine4(v, get_vec_start(v) 


2]; 


+ 


2 t 


也就是，我们在向量 M 后个元素和存玟结果的 N 标之间创趕外別名。那么 f 呐个函数的执 


如 h 


函数 


初姶值 


循环之前 


最后 


[ XXI ] 

12,3,5] 


[2,3 + 21 

[2,3,5] 


[2, 3,6] 
[2, 3,5] 


[2, 3, 36] 


[2, 3, 3&] 

12,3, m 


combine ] 

combii.G4 


[2, 5] 


[2, 3, 5] 


正如前面 i 井到过的， combi ne 3 将它的结架冇放在 H 标位置中，扞本例屮， F1 标位置就是 H 量的 

城斤）个7^素。囚此，这八信片先被设置为 i , 然后设为2 1 = 2,然后设为3 2 = 6。最后一次迭 

代中，这个值会乘以它己，得到 M 后结杲36。对于 combine 4 的情况宋说 T 到最后向景都保持 

小变，结束之前，最后一个元素会被设置为汁算出来的值1 .2.3.5 = 30。 

3然，我彳〖I说明 comhine3 和 combinM 之间差別的例子是人为设 i| ■的。有人会说 cotnbinM 的行 

为更加符合蚋数描述的意图。不肀的是，优化编译器不能判断函数会在什么情况卜被调用，以及程 

序员的本意 W 能是仆么。取而代之的是，在编译 combined 时，编译器有责任保持它的功能，即使这 
总味若生成低效率的代码。 


5.7 理解现代处理器 

到 H 前为 [ h ， 我们运用的优化都不依赖 t 目标机器的任何特性„这些优化只是简中.地降低了过 

柯调 用的开销，以及消除了一些重大的“妨碍优化的 因轰' 这些 W 素会给优化编译器造成困难 D 随 

#我们 试图进 •步提卨性能，我们必须开始考虑这样的优化，它们吏多地利用处理器执行指令的方 

式和某些处理器的能力。要想获得最大的性能，需要仔细地分析程序，冋时代码的卞成也要计对 H 

标处理器进行调整。尽管如此，我们还是能够运用一些基本的优化，在很大•类处埋器 上产中 整体 

的性能提岛6我们在这里公布的 i 羊细性能结果，对具他机器不一定也有同样的效果，仍是操作和优 
化的通 ffl 原则对范围众多的机器都 适用。 

力了理解改进性能的方法，我们需要-个关于现代处埋器是如何工作的简单操作模型。由于大 

贵的晶体管以被集成到块芯片 L ， 观代微处理器采用/复杂的硬件，忒图使程序性能最大化， 

一个后罘就是处理器的实际操作4观察汇编语言程序得到的概念人相径庭，在?「编代码级，肴上去 

似乎足次执行 条 指令，每条指令都包括从寄存器或存储器取值，执行-个操作，并把结來存回 

到.个寄存器或存储器位置。在实际的处理器中，是冋时对多条指令求 倌的。 在某些设计中，可以 

H 或更多条指令在处理中。采用些精细的机制来确保这种并行执行的行为，能士:奵获得机器级 
稈序耍氺的顺序语义模型的效果。 
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5.7.1 整体操作 

图5.〗1给出了现代微处理器的一个非常简单化的示意图。我们假设的处理器设计是基于 Intel 
“P6” 微体系结构的 [30] ，这种微体系结构是 Intel PentiumPm、Pentium II 和 Pentium III 处理器的基 
础。较新的 Pentium 4的微体系结构有所不同，不过它的整体结构与我们在这笋讲述的很类似。 P 6 
微体系结构是 h 20世纪％年代后期以来许多厂商生产的高端处理器的典型，在工业界称为超标量 
( superscalar ), 意思是它可以在每个时钟周期执行多个操作，而巴是乱序的 （ out - of - order ) ，意思就 

是指令执行的顺序不一定要与它们在汇编程序中的顺序一致 。 整个设计有两个卞要部分 ： ICU 

(Instruction Control Unih 指令控制 单元） 和 EU (Execution Unit f 执行单元 X 前者负责从存储器 

中读出指令序列，并裉据这些指令序列生成一组针对程序数据的基本 拽作； 而后者执行这些操作。 


指令拧制 


池址 


取指控制 


退没单冗 


指令卨速 


m 


寄存器 


指令 


指令解码 




垛作 


奇存器 


预测正 确吗? 


e 新 


HBBH 


功能 


单元 


操作结果 


地址 


地址 


数据 


数据 


数据 


高 速缓存 


执行 


5.11 —个现代 处理器的框图 

指令栌制单 元负责从冇储 器中读 fi ! 指令，井产牛-系列基本操作。然后执行单元完成这此操作，以及指出分支预测是否]卜:_。 

ICU 从指令高速缓存 (instruction cache ) 中读取指令，指令高速缓存是一个特殊的商速缓存 
存储器，它包含最近访问的 指令。 通常， ICU 会在当前正在执行的指令很早之前取指，所以它有 
足够的时间对指令解码，并把操作发送到 EU 。 不过，有一个问题，那就是当程序遇到 分支 3 时， 


1我们用术语“分支”专指条件抟移指令，对处理器来说， 其他 W 能将控制传送到多个目的地址的指令，例如过程返回和间 
接跳转，处理起来的闲难枵度足类似的。 
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程序有网个可能的前进方向。一种寸能会选择分支 r 控制被传递到分支目标；另一种 nj 能是 ，不 
选择分支，控制被传递到指令序列的下一条指令。现代处理器采用 f 一种称为分支预测 (branch 
prediction ) 的技术，在这种技术中处理器会预测是否选择分支，同时还预测分支的目标地址使 
用种称为投机执行 (speculative execution ) 的技术，处理器会开始取出它预测的分支处的指令 

并对指令 解码， 甚至于在它确定分支预测是否正确之前就开始执行这些操作，如果过后它确定分 

支预测错误，它会将状态重新没冒到分支点的状态，井开始取出和执行另一个方向卜.的措令 。一 

种更0[]异乎4常的技术是开始取出和执行两个可能方向上的指令，随后冉抛弃掉确方向上的 

结果1时至今 R , 都不认为这种方法的成本效率是值得的 4 标号为 取指控 制的块包括分支预测 f 
以完成确定取哪条指令的 任务， 

指令解码逻辑接收实际的程序指令，并将它们转换成 ’组基 本操作。每个操作都完成某个简单 
的 ij 算仟务，例如两个数相加^从存储器中读数据，或是向存储器写数据。对 j : 具有复杂指令的机 
器，上如说像 IA32 处理器，可能将一条指令解码成可变数量的操作。每个处埋器设计的详细情况 
都有所不冋，但是我 C 试着描述一种典型的实现。在这种机器上，解码 K 面这个指令 


addl %eax, %ecx 


产生一个加法操作 T 而解码下面这个指令 


addl %eax, 4 t^edxj 


产生二个操作 

器％^\中的值，的一个操作将结果存回到存储器。这种解码逻辑分解指令的操作，实现了在组专 
门的硬件单元之间的任务分割。然后，这些黾元吋以并行 地执行 乘法指令的各个部分 D 对 fa 冇简 
中-指令的机器，操作更紧密地对应于原始的指令。 

eu 接收来 h 指令读取_元的操作。通常，它会每个时钟周期接收若 f 个操作。这些揀作会被 

分派到-组 功能单 元中， 它 们会执行实际的操作 D 这些功能单元是专门用來处理特定类型的操作 D 

我们的闬（指图 5. n ) 说明了组典型的功能争元。它沿用的是最近的 Intel 处理器的风格。图屮的 
申元如 下： 

整数/ 分支* 执行简申的整数操作（加法、测试、比较、逻辑)。还处理分支，就像卜面会 t 寸 i 仑 


个操作从存储器中加栽一个值到处理器中，一个操作将加载进来的笮加上寄存 


的腑 


通用 整数： 吋以处埋所有的整数操作，包括乘法和除法。 

浮点加法： 处埋简单的浮点操作（加 法， 格式转涣乂 

浮点乘法/除法： 处理浮点乘法和除法。更复杂的浮点指令，例如超越闲数 (transcendental 
function ), 会被转换成操作的序列。 

加栽: 处理从存储器读数据到处理器的操作，这个功能单元有. 个 加法器来执行地址计算。 

存鏑：处-从处理器到存储器的写操作 & 这个功能单 元有一 个加法器来执行地址计算。 

如图中所示，加载和存储申.元通过數据高連缓存访问#储器，这是一个高速冇储器，包含最近 
访问的数据值。 

使用投机执行技木，对操作求值，但是最终结果不会存放在枵序寄存器或数据存储器中， S 到 
处理器能确定应该实际执行这些指令 □ 分支操作被送到 EU , 不是确定分支该往哪里去，而是确定 
分支预测是否十:确。如果预测错误， EU 会丢弃分支点之后计算出来的结果。它还会发信号给分支 
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3.19 


• 并指出正确的分支 H 的，在这种惝况中，计■元开 Wiit 収 》f 位 t 的術今, 

S 抟会# ft 很大的性晚.|〖铕_在叫以馭出新術令1解科和发送封执仃单无之 iiN 
一点时间. am 全在 s , i 2 , 中迸一办研•究这 tf ^ K . 

fli ECU H ^ b 遥投 聿无 （RdiTmmi U B _ t ) 记* 正 ft ： 迸錄的 tt 珥.丼确保它递守机器 级裎呼 fni 曠 
序咁义，我扪的1中描$了_个寄存 器文 件，它槪含》» 和洋点 ■寄#睢，是退役攀元的一 St , 
闪为坩役负元拎 m 这些寄存器的史 Se 指令，码 W . 关于坩今的倌皋被充边先出的队 W 
1^. 沒个佴 一 貞保恃在队”中. IKW 个结 I 中的■■个发生. IT 先.徘令的揀韦定成 f . 

而所★哆致这备指令的分支点也® K « 认为 * 么这条 ffi 令犹吋 软送收 f , 所 f 对柠序密 
frift 的更##衅以被实好机行 I 1 , fl —方向.如槌砝致该推令的某个分支点抝稠错 W , 这条播令佥 
被清空， 丢# 所荀 it ! 比宸的值*通过这押方法，》误的预興健不会改变界甲畎态了 * 

iHfrattieM 描述的埘扦，任何对 b 『 p 状态的更葙 _ 只 & 在 ft* 令遇役时才会馱生 ， Rtftstffl 
柑能够明仿泞 W 这备 ffi 令的所有计支 ffiffi 测 if: 磷 T, 才能这样做，为了 & 1 ; 邃一 frm 令到 5 ； -SHf 令 
的铂來的 ft 这 . dilt 类佶总趁 1 玖行章元之间 * 俛的 1 UPffl 中的 _ 垛咋 蛣圯 ' 扣阁中的罱头洧 

鉍常 圯的控 ：《* 作数在执行单元间抟送的机制玲为 f 4 at 命4 iitg \^ sci \^ mg >. % 

I 斬布存雄^的術令_ 码射， 产生 # it t ( Li # l ) r 得 別一个 _ 肉该撕作 ©1 的 ffi —的标 ifl 符 * 条月 
( r ^ siu 入洱一 Stit 屮， il 农维沪考 砷 ■寄:存相与会史新该寄# 器的*作的标 记之问的关联， 
' Ifitlfi 以珞 怍为 ffi 作数的 ffl 争 If 码时， SiS 到执行攀兄的操作会包 ft p 作为掬作 教薄的 tfl . 
当某个拽^元完成第一个_ 作时. 会生成一个钴果忭办柑明躲记为 f 的拟作产 生佾％ 此时.所 
fr 凉待 J 作为保的枞作 ffi 眭使 . FfjifAjjiffl 了. 通过这# 枳取 f 值呵以 ft 接从一个推作 抟递到 B — 

个掛作_ I ■不是 Nil * 存*： t # st 出*,鲛食來表只电含关于有未迸行写襟作的当 

一条已 W 码的痄 令葙荦 布存脒 h 两又洗存标记与这个布疗器 ffi Jt 联，这可珙 ft 嵇从搿 
跗义件中故相，有了獬 #器1 命名._浼只打在处薄狀砷定 T 分 I 结風之 IS 才能史 W 寄疔 W . 由可 
以拽 执行 _作的呢个序列， 




■■ 




旁法 i 封序縈理的历史 

乱序处 id 政+是在1%4年 C 

单无*粤个尊尤♦能往立地 JHK 在坪豢时螇，时钟麵摩为 IrtMhi 的帙其被展为是科 
学计霁最#的机軋， 

在■妨6 年， ffiMf 先是在 IBM3M»r 上 实墀了 说痔# tlf, ilA 是用 Miifrf 点捎令.在欠约25 


⑵公司的_处 11其_实現的，《令足由十个不《的功 


年的对《置.礼4处4部拭认 外是一，弄 手子常的枝表， RA:4 求冬町 呔高性敢的机其中使用， 力到 
I9W 年 IBM 在 


豕列工作 Afi 中童餹||八了这夺技术，这# Ht 计或为 T 
革列的基政典 4 *fUUt 1993年 S ] 入的 《 JL , 它成为第一个鍊用：的攀芯对 Utifcrt 存 


LW 繼 


La ftjwerPC 


n ! iJft hi .►-I.'. l\ 


5 . 7 . 2 功能单元的性能 

圓 5.] 2提供 n 塌 el Ptiiihimlnm _% S 本# ft 的性 ft , 其他 ttB 雄也具有这柠的 计时 圬征，毎 
个嫌作*監由网 tfflW 计 数值宋 葑_的1 一个适犰行时间 <]^ lKjr > P 它揃明功 t * 元完成■作所滞 

(isHifl time I , 它抱明述拔的、 Ulttifr 之闻的 Ml 明 | L 执行 Pf 
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间的范围从基本整数操作的一个周期，到加载、存储、整数乘法和更常见的浮点操作的几个周期， 
到除法和其他复杂操作的许多个 周期。 

E 如图 5.12 中第 i 栏所小，处埋器的几个功能单元被流水线化了，这意味着在前一个操作完成 
之前，它们就叫以开始-个新的 操作。 发射时间指明一个单元的连续操作之间的周期数。在一个流 
水线化的笮元中，发射时间比执行时间短.流水线化的功能单元是作为一系列阶段束实现的 | 每个 
阶段完成操作的-部分。例如，一个典型的浮点加法器包含二个阶段： 一 个阶段处理指数值，一个 
将小数相加，而-个四舍五入计算最后的结杲。操作可以连续地通过各个阶段，而不是等待一个操 
作完成后再开始下一个。只有角要执打的操作是连续的、逻辑上独立的*才能运用这种功能。正如 
茇明的那样，大多数单元能够每个时钟周期开始一个新的操作。仅有的例外是浮点乘法器利两个除 
法器，浮点乘法器要求连续的操作之间至少要有两个周期，而两个除法器根本就没有流水线化。 


怍 


执行时间 


发射时 K 


整数加法 
整数乘法 
整数除法 
if 点加 it 
f ? 点朵法 
浮点賒法 

加载（高速缓冇命中) 
存储（高速缓存命中) 


36 


36 


38 


38 


图 5.12 Pentium W 算术揉怍的性能 

执行扩间代表操作 的总周 期数。发射时 W 表示连续的、独立的操作之间的周期数 I ：来自于 Imd 的文献 ) t 


电路设计者珂以创建具有/ -系列性能特性的功能单元。创建一个执行时间短或发射时间短的单 
元需要较多的硬 n, 特别是对于像秃法和浮点操作这样比较复杂的功能。因为微处理器芯片上，对 
于这些笮元，只有有限的空间，所以 CPU 设计者必须小心地平衡功能单元的数董和它们各自的性能, 
以获得最优的整体性能。设计者们评估许多不冋的基准程序，将大多数资源用 f 最关键的操作。如 
图 5.12 表明的那样，在 Pemiumin 的设计中，整数乘法、浮点乘法和加法被认为是1要的操作，即 
使需要大 ft 硬件以获得低执行时间和较高的流水线化程度 D 另一方面，除法相对不太常用，而 n. 难 
以实现低执行时间或发射时间，因此这些操作相对而言比较慢。 

5.7.3 更近地观察处理器操作 

作为分析在现代处理器上执行的机器级程序的性能，我们提出了 d 种更详细的文本表示法来描 
述指令解码器产生的操作 t 还有一种图形化的表示法来显示功能单元对操作的处理。这两种表小法 
都不能准确地表示具体的、现实的处理器的实现，它们是简单的方法，帮助理解处理器在执打程序 
时能够如何利用并行性和分支预测 

将指令翮译成操作 

我们通过 combiW (图 5.10) 来说明我们的表示法，它是到 H 前为止我们最快代码的水例。我 
们只关注循环执行的挽作，因为对很大的向量来说，这是性能的决定性因素。我们考虑整数数据以 
及以乘法和加法作为合并操作的情况。使用乘法的循环的编译代码由四条指令组成。在这个代码中， 
寄存器 ％ eax 保存指针 data , % edx 保存 i , % ecx 保存 x , M % esi 保存 length : 
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34 ) 


combined type 二 {NT\ OPER - * 

細 q in %eax, in %€cx f i in %edx f length in %esi 
.L24: 

irnul 1 ； %eax,%edx a 4 ],%ecx 

incl %edx 
cmpl %esi f %edx 

jl .L24 


loop 


Multiply x by datafij 


Compare i: length 
//< P goto loop 


4 


每次处理器执行这个循环时，指令解码器将这四条指令翻译成执行笮元的…个操作序列> 第一 
次迭代时^ i 等于 0 ,我们假定的机器会发射下面的操作 序列： 


汇编指令 


执行单元操作 


■L24; 

(%eax, , %ecx 


load f%eax H %edx*0, 4) 
imull t + 1, %ecx.O 

Inci %edx t 0 

% esi H 1 

jl-taken cc .1 


%ecx.1 


incl %edx 


^ edx , 1 


cmpl %edx 

j] .L24 


cc . 1 


cmp 


在我们的指令翻译中，我们将乘法指令的存储器引用转换成一条 M 式的 load 指令，它将数据从 
存储器读到处理器。我们还给每次迭代都变化的值分配搮作数标号 (operand label ), 这些标号是寄 
存器重命名生成的标记的风格化版本。因此，循环开始处 f 寄# #% ecx 中的值由标号标识, 
在更新后， Eti % ecx 」 标识 6 这次迭代弓下次迭代不变化的寄存器值可以在解码时 K 接从寄存器文件 
屮获得。我们还引入了标号 t . l , 来表示 load 操作读 取的、 传送到 imull 操作 的值， 而我们显式地给 
出了操作的 H 的地。因此， 一 对操作 


]oad (%eax r %edx*0, 4) 
imull t.l, iecx.O 


t.l 


%ecx. 1 


表明，处理器首先执行一条 load 操作，用％^战的值（这个值在循坏中不会改变）用循环开始时存 
放在 ％ edx 中的值来计算地址，这会产生一个临时值，标号为然后，乘法操作获取这个值和循 
环开始时％沈?;的值，产生一的新值。正如这 个例子 说明的那样，标记可以与并不会写到寄 
存器交件中的巾间值相关联， 


操作 


incl %edx.Q 

指明，増量操作对循环开始时％ £ 如的值加 h 产生这个寄存器的新值。 


%edx, 1 


操作 


cmpl %e3i, %edx. 1 


cc , 1 


指明，比较操作（由两个整数单元中的-个执行）比较 ％ esi 中的值（这个值在循环中不会改变）和 
新计算出来的 ％ edx 的值。然后，它会设置标号 ccJ 标识的条件码。正如这个例子说明的那#，处 
理器可以用重命名来记录对条件码寄存器的改变。 

最后，预测跳转指令会选择分支 . 跳转指令 


■■ 1， taken cc , 1 
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检查新计算出来的条件码的值 （ cc.l) 是否表明这是个 [H 确的选择。如粜不是，那么它会及俏号给 

告诉它在 ji 后面的指令处开始取措令。为了简化表示法，我们省略 了所冇关丁可 能的跳转 n 
的地的信息。实际 1 :, 处珲器必须记录未被预测力向的 ri 的地，这样一来，在预测错误时，它吋以 
从那唞开始取指。 

如这 个小例 翻译表明的那样，我们的操作在许多方面模仿了汇 编语言 指令的结构， p 余了它们是 
用标识寄 4 器不同实例的标号来引用它们的源和 0 的操作的。在实际的硬件中，寄存器重命名动态 
地给标记赋值，使之指向这些不同的值。标 1 C 是位模式而不是像 “ ％ edx,r 这样的符号名字，但是 

它们提供的用途是一样的 D 

执行电元的操作处理 

图 5.13 以两种形式嵌承 r 操作：，种是指令解码器生成的形式*另一种是用计算图 (computation 
graph ) 来友示的，在这种图中，操作是用圆角方框表不的， lf[j 箭头表明操作之间的数据传递。我们 
M 为一次迭代4 卜- 次迭代之间改变了的操作数而显示箭头，因为只有这些值才江功 能午兀 之间进 

打传递。 


ICU ， 


%sd?c ■ 0 


ind 


load 


cmpl 


cc. 1 


% ecx , 0 


执行单 7 U 操作 _ 

load (%eax, %edx»0, i) 
imull t+1, %ecx.0 

incl %edx+0 
cmpl %esi, %edx. 1 

j1-taken cc.1 


%ecx,1 


%edx. 1 


■mull 


cc , 1 


% ecx. 1 


图 5+13 整数乘法的 combine4 的内循环第一次迭代的乘法操作 

存储 * 读被显式地转换成了 加载。 寄存器名字是用实例号码 (instance number) 标记的。 


每个操作符方框的卨度表明这个操作需要多少个周期，也就是这一种功能的执 fr 时间。在此- 
整数乘法 iinull 需要叫个周期，加载需要=个周期，而其他操作需要一个周期。在展示一个循环的 
计时中，我们将块竖良地放置，来表示操作执行的时间，向 F 的方向表示时间的增长。我们叮以看 
到，循环的五个操作形成/两个并行的链，表明两个计算序列必须顺序地执行 t 左边的链处理数据， 
_ 先 从存储器中读个数组元素，然后用它乘以累积的乘积。右边的链处理循环索引 i , 首先对它 
加1,然后拿它4 length 做比较。跳转操作检查这个比较的结裝，以确定分支预测是 [ H 确的。注意, 
从跳转操作方框中没有向外的箭头。如果分支预测 IF . 确，不需要任何处理。如果分支预测错误，那 
么分支功能争元会发信号给指令取出控制荦元，而这个单元会采取改正的行动，无论是两种情况中 

的哪一种.其他的操作都不依赖 T_ 跳转操作的结果。 

阁5」4给出了 N 样的到操作的翻译，只不过合并操作是整数加法。如图形描述所示.所有的操 
作，除了加载以外，现在都只需要一个周期。 
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执 fr 单兄操作 

load (%eax, %e<bc. 0, 4 ； 

addl t. 1, %ecx. 0 

incl %edx - 0 
cmpl %esi, %edx.l 
i1-taken cc.1 


i^dK. 


oad 


%ec:x, 

% edx - 


令 ecx ， 


add 


4sec3t L 


5. u 整数加法的 combine 4 里面循环第 _ 次迭代的操怍 


?乘法相土 t 惟。的变化是加法操作 R 需要•个周期。 


有无限资源的操作调度 

为 f 看看处理器将如何执行一系列的反复， t 先设想一个处理器，它有无限多个功能单元和完 
美的分支预测 □ 只要一个操作的数据操作数可用，该操作就能够开始执行了。这样一个处理器的性 
能只受 F 列因素的限制 f 功能笮元的执行时间和吞吐量，以及程序中的数据相 关性。 图 5.15 给出的 
是在这样一个机器上整数乘法的 ccmbinM 中循环头 H 次迭代的计算图。对每次迭代，都有一组五个 
操作 t 形式与图 5J3 中所示的一样，而操作数标号有适当的变化 & 从一次迭代的操作数到另-次迭 
代的操作数的箭头表明了各个迭代之间的数据相关。 

根据没有朝!:的箭头这-限制条件，每个操作都竖直地放在尽可能高的位置，因为朝 L 的箭头 
表明信息流向过去的时间。因此，只要前一次迭代的 incl 操作产生了循环索引 (loop Mex ) 的更新 
值，下一次迭代的 load 操作就能够开始了 □ 

这 ^ S ： 十算图展示了执行单元对操作的井行执行 t 每个周期中，图上一条水平线上的所有垛作是 
并行执行的。这个图还展示了乱序和投机执行。例如，一次迭代中的 ind 操作在前一次迭代的 jl 指 
令开始之前就执行了，我们还能看到流水线化的效果。每次迭代 从头至 尾至少需要七个周期，但是 
随后的迭代每四个周期就能完成。因此，有效处理频率是每四周期一次迭代， CPE 为4.0 6 

整数乘法四个周期的执行时间限制了处理器对这个程序的性能，每个 imull 操作必须等待直到 

前- 个換作 完成，因为在开始之前，它需要这次乘法的结果。在我们的图中，乘法操作在周期4、8 
和12上开始。在随后的迭代中，每四水周期开始一条新的乘法。 

图 5.16 展示了在一个有无限多个功能单元的机器上，整数加法的 CO mbine4 的头四次迭代。如 
果合并操作只需要一个周期，程序的 CPE 就能达到].0。我们看到随着循环的进行，执行单元就能 
每个时钟周期执行七个操作的一部分了。例如，在周期4中，我们可以看到机器在执行迭代1的 a ddl, 
迭代2、3和 4 的 toad 操怍的不同部分，迭代2的 jl T 迭代3的 cmpl 以及迭代4的 inch 

资源约束下的操作调度 

当然，-个真实的处理器只有固定数 H 的功能单元 □ 和我们前面的例+不同，在那些例子中， 

性能只受数据相关性和功能单元的执行时间的限制，现在性能还受资源约束的限制，特別地，我们 

的处理器只有两个单元能执行整数和分支操作 □ 相反，在图 5.15 中，周期3中有二-个此类操作在并 
行执行，而周期4中有四八在并行执行 D 

图 5 J 7 展示了在…个有资源约束的处理器上，整数乘法的 com bi ne 4 的操作调度 D 我们假设通 





用的怡分玄元伟 ( JM # 场个周明开哈一个 新拗 作，可笔于内 f 的慢败或分支捭作 
fftrit ^ ff . «橡蝴_6中芾示的 Sff , H 为此时 imul ] 拽作妫 作:它 的弟三个网叫. 

[«为1渖噠约芘扪的处理洛 ■£■ 讀狡保 呷度氧略，在有赛+进《时> 它毋说屯应改执圩_ 
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I 搁 W 4 中，我们会使迭代 I 的 iiruli 纖_反选代2的 j ] _ fl = 的优先级省 fiS 代3的 ind _作 
的优先线* 
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村于这个來浼，访能妒 i £» i 有琪丼没 雨使我 打的柙呼变慢，性轮仍然尼掖雩数典法的四 
调期执行时师■旬的_ 

对于整数 in 法的情 sl f 释约朵明 M 地 wim 了样序 件能. 每次迭代®旮网个輳 ft 或分支 找作. 
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啐/栌讪法例外以这些 . tta 期时间1本 J ; rtl 与含并找 Hi 的执=1 丁对 N 相符■如 

在«_袓们的转抑柯 cpe 值降肤刊合 井曄 作的时间成为 mrn ^ 

对于整教加法的 tftSlh 我们淞到，有④数置的针何分支利轉败长作的功_单元轚闺了矩达_的 
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们的 嫌佧算 i ：_. 因为功，舉元有-个或多个_期的捵衧时间,这《设置 个论定 _咮作 
疗列 执行闲剛权的下界，篦二 P 资深约了在任 * 拾定时刻晚味执盱多少个掸作_孜们肴到_ 
Jlifi 笮元的有闰&最铁£这枰 W 资晚约架. K 他的妁 jfefeffi 劝 ft 单元流水饯 k 的柙 ft , 以 inCU 
flIElH ■其他螯漏的限制，雌.-个 InftlPtJiiiirnm 毎个时钟刑期 只昨觯 队-.茱伟 h 關 _分 

支逻辑的成功鉍制了处理為能:够次指令流+紐 fltr 工作以保待执行中 rtttf : 的构增， 

渊《误时，处现器从琅确的礅 霣1 新旰柏柿佘4起泔 I ：的 s 圯 ■ 
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SJS _ 知资 _ 來的 ti 况 T , lift 加法操忭的晒 


ft i«W Rfl * 在 cm#. 


58 降低循环开销 


这伴一十楠 fSJI 制 J 极 S 加珐的 wmbint # 的憷昧 


_就蛙， S 次选代包栝四条指令> 但达只冇 
^ ! '功陡守1晚叫 执彳 这马枨令，这 M 条搶令中只条 ffi 翊甩序 ti [闲找作的， tt 他的 BUifft 硝 
坏 ffJ 索 U ' !«jp andtit ) 和 HUS 砰条叫 W 惆蚪升 _内 一_ 分， 

我! fl 11 〗 以 iffliJft : 缚次这代中执什 d 多的 ft 拥鼬 拃农睬小 _秆开猜的__ 

千 k ^ urmllijig ) 的 技术. 其思想 ft 也一次 j ® 代中访问热电元教笄 做典法 
屯少的这代，从而陣狂了 ■ 环时开 悄， 

ft ! 5 J 9铪出 r 对找 们的台 f 代料 ttffl •■ ■: 次播蚌 M ff 的版本 
*- 也就是 ■ 每 ft 迭代会加3, 


使 ffl 的 ft 件为儁 ft : 展 

mmmmm 


ffi 一 个湘坪一汰址冉数细的.个元 
而一次魂代中佥对尥组元免“ f +] 和 f +] u [叶合并撼#* 
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f* Unroll 】mp bj> 3 *y 

V&id C^Fribii^tS (vK_pi i 


data _ L 甘 加就] 


inn length 


v©G_iertgthlv)r 

int limit - l-ength- 2； 

da [ ai_!i _ ds【a 


gfl " t_v 
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dal:a_L x 二 IDENT ； 

丄 nt : 丄 j 


9 


/* CnmbiTic 3 elements at a time */ 


10 


foi f i 


0; i 

OPK^ daLa[i] OPER data[i+11 OPER data[i+21 


L + 




12 


x 


X 


13 


14 


卜 Finish any remaining dements ^ / 

for (; i < length; i++)( 

OPER ddta[i ]； 


15 


16 


17 


x 


X 


1 H 




dest . 二 x ; 


2 U } 


c odefopt/comb ine • c 


5+19 展开循环三次 


M 坏 te 开能敁小循环丌销的影响 


通常，向量氏度不会是 3 的倍数。我们希望我们的代码对任意向董度都能正常丄作 D 我们从 
两个力_面来解决这个靠求。首先要确保第•次循环不会超出数组的界限。对于长度为/!的向量，我 
们将循环限制设为〃-2。然后，我们会保证只有当循环索51丨洵足 i <^2 时彳会 执行这个循坏，因 
此最人数组索引/+2会满足丨+ 2<(«-2) + 2 = «。通常，如果循环展开 fc 次，我们就把 [.限 设为 
1。那么最火循环索引丨 + A -1 会比小。除此之外，我们加上第一个循环，以每次处理一个元素 
的方式处理向暈的最后儿个元素。这个循环体将会执行0〜2次。 

为了更好地理解带循环展幵的代码的性能我们来看奉内循环的 r 编代码和它到操作的翻讦: 


卞 


汇编指令 


执行单元攙作 


.1.49 ： 


addl (^edx, 4 ) r ^ecx 


load {%eax, %e<3x. 0 

dddl t.la, %ecx.Oc 

load 4(%eax, %edx.O, 4) 
addl t.lb, %ecx.la 

1 oad 3(%eaXj 
addl t■lc, %ecx,lb 
addl %edx.0, i 
cmpl %esi, %edx r 1 
j 1-taker, cc 乂 


4) 


%ecx. la 


^ddl 4 dm %ed^ P 4 ) , %ecx 


Ulb 


lb 


dddl S f^eax r 4) y %ecx 


4) 


t ■ lc 


%ecx. Iz 


addl %ecx 


%edx 」 1 


cmpl %usi ,tedx 
jl + L 49 


] H 如 rT 面提到的那样，循环展幵本身只会帮助整数求和情况中代码的忖能，因为我们的其他情况是 
被功能单兀的执行时间限制的。对十整数求和，二次展开使得我们能够用六个整数/分支操 作合并 -_ 
个元素，如图 5.20 所示。用两个功能单元完成这些操作，我们潜在地能达到 CPE 1.0。图 5/21 表明, 

—CI 我们到达迭代 3 (i = 6), 操作就会遵循-种规则的模式。迭代 4 Ci = 9) 的操作有 M 样的时间 
安排，只不过移动了二个周期。这会真正得到 CPE 1.0 。 




ft 化 


a 们对这个 由數时 ■试表 Acre 为】.:^ feUft 说.每 KttftHSH 个两期* 很明® _我们布 
分听中浲说明的某个资说约屯运线 S 次&代费多一个刑期_ 麵, 比起未使 FR 0 S 环堠开 W 

im ^ 这个性晚还巡有改进的， 


1 -Diid llflj 

^<3dl t.la ； tcrx.Oc 
load 4^ mx , 4] 

祝 Ml t a lb 4 %cdla 

load i |i 


0. ■!? 


t ■ la 


3 LF ? 


I « x 4 


t ■ lb 

%^ CK n Lb 

[: .le 

icsrx.lc iHi!^. ClE 

-+ %€ hH 

tc s 1 


tedn 4] 

Addl t m l€ I led lb 




T 8 i - 


-addl tgdx.tl, % 
■ enp ： iMi , 1 

jl - ILdt ™ 


P # 


\ tcA^r 


1WE X . 1 EU 


l«:“c 


K 5.20 三次_开整 》)1 法的徧 讧的 * 一次逾代的換忭 

■f! 'HiSWlrtm »眸《 h ft 们 P: 以用六令 _ B: ■& iUPtft i _」 


fc ^ P!.a 


& 


& 


a 


« 


feZH ■:? [ 




\D 




II 


1» 


13 


14 


IS 


4 代身 


p .2 i 三次展汗 : nst 


J：p 3 个 iiitt 町晤达， CPinj). 


Ui 


剩 租*的性捋到如 F 的 CPF : 挝; 
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展开程度 


向 i 长9 


2 


16 


CPE 


2.00 


1.50 


1.33 


1.50 


1.25 


正如这些测量值表明的那样，循环展幵能降低 CPE。 当循环展幵度为2时，主循环的每次迭代 
需要二个时钟周期，得到 CPE3/2 = 1.5, 当我们增加展幵的度时，我们通常能获得更好的性能 f 接 
近 CPE 的理论极限1.0。注意到改进并非是单调的是很有意 思的： 展开度为3得到比展开度为4更 
好的性能。很明在后一种情况中，执行单元上操作的阔度效率要低一些。 

我们的 CPE 测量疽 不能解释开销因素，例如稈序调用和准备循环的开销。 使用循 环展开，我们 
引入了一种新的开销——当向量长度不能被展开度整除时，需要完成所有剩 卜的 元素。为了研究丌销 
的影响，我们测童了各种向量长度的净 CPE (netCPE)。 净 CPE 是这样计算的.过稈需要的总周期 

数除以元素的个数。对于不同展幵度和两个不同的向量长度，我们获得卜面的数据』 


开程 


向置长度 


CPE 


ZOO 


150 


L 33 


1.50 


1.25 


31 净 CPE 

1024 净 CPE 


4.02 


3.57 


3.39 


3M 


3.91 


3.66 


2.06 


1.56 


1.40 


L56 


1.31 


M2 


对 J 长向量来说， CPE 和净 CPE 的差别很小，从长度为1024的测量值就能看 出来； 但是对于 
短向暈 米说，影响就很明显，从 K 度为31的句量的测量值就能看出来.我们长度为31的向量的净 
CPE 的测量值展示了循环展幵的一个缺点。即使不展开，净 CPE 4.02 比长向 ft 测出的 2.06 要卨很 
多。当循环执行较少次时，开始和完成循环的开销变得更加重要，另外 f 循环展开的好处就不那么 
明显了。展开后的代码必须启动和停止两个循环，而且它必须每次一个地完成最后的元素。循环展 
开增加，开销会降低，而最后循环中执行的操作数会增加当向量长度为1024时，性能通常会随着 
展幵度的增加而改进 D 当向量长度为31时，展开度只为3时能得到最好的性能。 

循环展开的第二个缺点是它增加了牛.成的 H 标代码的数量 D combine 的 目标代 码需要63字节, 
但是循环展开度为16的0标代码需要142字节。在这种情况中，代码运行得几乎快了一倍，似乎要 
付出小小的代价。不过在其他情况中，这个时间-空间的折衷中最优的位置还不是很淸楚。 


旁注： 让编译羅展开循环 

编译器可以很容易地执抒孩环展开，只要伏化级别设置得足够高（例如> 优化选項为 v ), 
许多编译器都_行公事 A 做到这一点，在命令行上以 -" fiuuoU - loops " 调用 GCC ， 它会执行循钚 


展开, 


5.9 转换到指针代码 

在进行下一步之前*我们应该冉尝试一种有时能改进程序性能的转换，但这是以程序的可读性 
为代价的。 c 的个独特的特性是能够对任意的程序对象创建和引用指针。实际上，指针运算与数 
组引用冇很紧密的联系。表込式 *(a+i> 给出的指针运算和引用的组合正好等价于数组引用 a [l 有时， 
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我们能够通过使用指针而不是数组改进一个程序的性能。 

5.22 给出了 ■个将过程 combhe4 和 combines 转换成指针代码的示例，分别得到过程 
combine4p 和 combine5p^ 与保持指针 data 固定在向最的开始处相反，我们每次迭代时都移动觉。 
然后，通过 data 的固定偏移量 （0 〜 2) 来引用向量元素。最重要的是，我们能从过程中消除循环变 
量 i。 为了确定循环该在什么时候中止，我们计算一个指针 dend 作为指计 data 的上界，比较这些过 
程和它们相应数组的过程的性能得到混合的结果 ； 


页教 


累枳在临时 变籃中 


3]5 


2.00 


4.00 3.00 


5.00 


combine4 

combine4p 


指什版本 


3,00 


4,00 100 


5.00 


351 


展幵循环 X 3 


347 


L33 


4.00 


3 」 


5,00 


combined 
combine5p 


指针版本 


4,00 3. 


5.00 


351 


J.33 


展开楯环 X4 


4,00 100 


5.00 


1,50 


combine5x4 

combine5px4 


指计版本 


4.00 100 


对大多数情况来说 t 数组和指针版本的性能完全-样1不带展开的輳数求和的指针版本的 CPE 
实际上还变糟了一个周期。这个结果有点奇怪，因为指针和数组版本中的循环是非常类似的，如图 
5.23 听示。很难想像为什么指针代码每次迭代需要多一个时钟周期。同样不可思议的是，过稈四次 
循环展开的版本使用指针代码能产生每次迭代一个周期的性能提高，得到 CPEK25 (每次迭代5个 
周期)，而不是1,5 (每次迭代6个周期乂 


code/opt/comhine^ c 


/* Accumulate in local variable, pointer version */ 

void combine4p(vec_ptr data_t *dest) 


1 


2 


int length = vec^length<v) 


data_t *da=a = geL_vec_start fvi ; 

data_t ^dend = data+length ； 
data t x 


5 


IDENT; 


for (; data < dend ； data++) 

x = x OPER *data; 

*dest = X ； 


9 


10 


11 


12 


code/op t/comb ina.c 


U) combine4 的指针 IK 本 


code/opt/combine, c 


/* Unroll loop by 3, pointer version */ 

void cornbine5p(vec_ptr v, data_t + dest) 


2 


data_t *daza = get_vec_start(vi; 
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data_t + dend = data+vec_length(v )； 

dend-2; 


da!:a_L ^dlimit 
data t 


IDEWT 


x 




/* Combine 3 elements at a time V 

dlimit; data 

OPER data[0] OPER data[l] OPER data[2 ]； 


3； { 


]0 


[or (; data 


11 


x 


12 


13 


严 Finish any remaining elements */ 

for (; data < dend; data++) { 

OPER data[0 ]； 


14 


15 


16 




X 


17 


13 


女 dest 


x ; 


19 


code/opt/combine, c 


(b) combine5 的指针版本 


5-22 将数组代码转换成指针代码 


在某畔情况中 t 这能够导致性能的改进 . 


combined type^INT, OPER = + r 

data in %eax, x in %ecx 7 i in %edx y length in %esi 

loop: 


■ L24: 


Adddatalt] tox 


addl (%eax ； %edx,4) ； %e^x 

incl %edx 

cmpl %esi, %edx 
jl 儿 24 


A . 


Compare i: length 
!f <, goto bop 


(a) Array code 


combine4p: type-tNT r OPER = r + r 
data in %eax f j: in %ecx, dend in %edx 

hop : 


, L30 : 


addl (%eax) P %ecx 

addl $4,%eax 

cmpl %edx,%eax 
jb .L3G 


AdddatafOJ tox 
data + + 

Compare dato:dend 
//<, goto loop 


(b) Pointer code 


5,23 指针代码性能异常 

虽然结构 h 两个程乎 非常 相似，但是数组代码每次迭代 X 要 "2 个周期，而指 tt 代码需 S 3 个 




根据我们的经验，指针和数组代码的相对性能依赖于机器、编译器，甚至于某个特殊的过程。 
我们己经看过编译器，它们对数组代码应用出常高级的优化，而对指针代码只应用最小限度的优化 
为 f 可读性的缘故，通常数组代码更可取…些。 
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练习麵54 

有时候， GCC 会自己将数组代码转换成栺针代码.例如，使用整数数据和以加法作为合并搮作 
时， GCC 为 combines 的一个变种的内循坏产生下列代码 7 使用的是八次循环展开： 


, L 6 : 


addl (%eax) , %edx 

addl 4 (%eax),%edx 
addl 8(%eax],%edx 

addl 12(%eax),%edx 
addl 16(%eax),%edx 

addl 20(%eax) f %edx 
addl 24(%eax) f %edx 
addl 28(%eax),%edx 

addl $ 22 ^%eax 

addl $8 f %ecx 

cmpl %esi,%ecx 

jl *L6 


10 


11 


12 


13 


观察寄存器 ％eax 是如何每次迭代增加32的. 

写出过程 combineSpM 的 C 代码，展示这段代码是如何计算拍针、循冧变量和中止条件的，按 

照图5,19的 R 格，给出使用任意数据和合并搮作的通用格式。描述它与我们手写的指针代码（图 
5,22) 有何区别， 


5.10 提高并行性 

在此，我们的程序是受功能单元的执行时间限制的。不过，如图 M2 中第三朽所示，处理器的 

几个功能单元是流水线化的，这意味着它们 nj 以在前一个操作完成之前开始.个新的操作。我们的 

代码不能利用这种能力，即使是使用循环展开也不能，这是因为我们将累积值放在-个单独的变董 

x 牝 直到前面的计算完成之前，我们都不能计算 x 的新值。因肚，处理器会暂停 （stall ), 等待开 

始新的操作 t 直到当前操作完成。图5+15和图5」7中很淸楚地展示了这个限制。即使有无限的处 

理器资源，乘法器也只能每四个时钟周期产生一个新的结果 □ 对于浮点加法（三个周期）和乘法（五 
个周期）也会有类似的限制。 

5-10.1 楯环分割 C loop splitting ) 

对于一个町结合和可交换的合并操作来说，比如说整数加法或乘法，我们可以通过将一组合并操 
作分割成两个或更多的部分，井在最后合并结果来提髙性能。例如，^表¥元素 ％ 


的乘积 




p 


假设《为偶数，我们还可以把它写成广= PE, #0,，这毕是索引值为偶数的元素的乘积，而 
PO n 是索引值为奇数的元素的乘积： 



354 


a i 7-2 


- n 


PE 


a 2i 


ni2-2 


^ U a 2 


PO 


J=t) 


图 5.24 展承的是使用这种方法的代码 D 它既使用了两次循环展开 f 以使每次迭代合并更多的元 
素，也使坩了两路片行，将索引值为偶数的元素累积在变量 xO 中，而索引值为奇数的元素累积在变 
董 xl 中。同前面■■样 T 我 II 还包括 f 第-个循环，对千向量长度不为2的倍数时，这个循环要累积 
所有剩 K 的数组元素 D 然后，我们对 xo 和 d 应用合并操作，汁算最终的结果。 


code/opt/comhine + c 


Unroll loop by 2, 2-way parallelism 

void combined(vcc_ptr 


2 


data t *dest) 


v 


4 


i nr. length 


vec_lengchtv) 
int limit = length-1 : 




daLa_L *data = get_vec_start(v!; 
daLa_t xO 

data_t xl 

5nt i; 


IDKWT ； 


10 


f* Combine 2 elements at a time 

limit; i+=2) { 
xO OPER data[i ]； 
xl = xl OPER dat^[ l+1 I ； 


U 


Cor (i = 0? 


1?, 


丄 < 


1 


xO 


14 


15 


16 


17 


/ + Finish any remaining elements */ 

for (； i < length ； i 十 +) { 

xO = xO OPER data[i ]； 


18 


19 


20 


21 




xO CPER xl; 




22 


code/opt/comhinex 


5.24 二次展开循环并使用二路并行 


B 种方达利 H f 功能单 x 的饨水线能力。 


力了了解这个代码是如何提卨性能的， U : 我们来考虑对于整数乘法情况的循环到操作的翻 


译: 
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汇期 S 令 


执行单元操作 


.L151: 


imull (%eax, 4 ),%ecx 


load (%eax, %edx.0 

imull t- la, %ecx.0 
load 4 I%edx.0 P 4) 

imull i ,lbj %ebx-0 

addl S2 t %edx.O 
cmpl %esi P %edx.1 

j 1-taken cc .1 


%ecx.1 


imull 4 ( % eax f %edx, 4), %ebx 


t.lb 


%ebx + 1 


dddl $2 r %edx 

cmpl %esi, 

jl .L1S1 


cc r 


5.25 给出了第一次迭代 ( i =0) 的操作的图形化表示 D 正如这张表说明的那样，循环中的两 
个乘法是相互独立的。■个以寄存器 ％ ecx 作为它的源和目的（对应于程序变量 xO ), 而另…个以寄 
存器 ％ ebx 作为芭的源和目的〈对应于程序变童 Uh 第二个乘法 在第一 个的后一个的后一个周期就 
吋以开始了。这利用了加载单元和整数乘法器的流水线化的能力。 


ledx 0 


add! 


%edx .1 


load 


cmpt 


CC r X 


执行单元播作 

load (%eax P %edx.0, 4) 
imull t * la, %ecx.0 
load 4(% eax , % edx t 0, 4) 
imull t.lb, %ebxn 0 

addl $2, %edx + 0 
cmpl % esi , % edx .1 
jl-taken cc + 1 


%ecx.O 


t .la 


t,la 
% ecx .1 
t.lb 

%ebx. 1 

%edx ■1 

CC - 1 




t.lb 


imull 


imull 




%ebx,1 


5-25 二次展开、二路并行的整数乘法内循环的第一次迭代操作 


两个乘法操作是逻辑上独立的。 


5.26 给出的是整数乘法的头二次迭代 （ i =0, 2和 4) 的图形化表不。对于每次迭代，两个乘 
法都必須等待，直到前一次迭代的结果计算出来。这个机器还是能每四个吋钟周期产生两个 结果， 
得到了理论上的 CPE 2.0, 在这幅图中，我们不考虑整数功能单元的有限集合，但是也没有证明它 
是这个特殊过程的限制。 

比较只进行循环展开和使用循环展开以及两路并行，我们得到以下的性能： 


浮点数 


: VI 


页教 


方法 


展开 X 2 

354 展开乂2,并行 X 2 


L 50 


4,00 


3,00 


5.00 


coiriblneG 


1.50 


2.00 


ZOO 


2 J 0 


对于整数求和，并行化并没有帮助，因为整数加法的执行时间只是一个时钟周期。不过对于整数和 




mm, ft _ cpE _： n _ iv 本麗上看,我们加儐地使用 r 功 « t 雒元_时 m 点加 ui 
巷其 fe 的资通 约朵将我 n 的 cpEfe 制4了^ «不圮理论 

我们甲就知逾，二进_补箅 是《1 交换扣可蛣#的，坟1于溢出时也进如此* wit ， 对于 m 

%mm r 在街省可 篦的管 Sf B wmfcbrt t 算由的鳕 .-ft » mblA «$ 汁篝出 的相因此, 

优化鴒译擀府认地梭:够将 cmnbanf 4 &断 后的代码 f 史玷 換成 c ™ binc 5 的一个■栉械 ffW 开变种， 
然后#111引人#衧性，将之 W 换成 rombi&ri 的 r 个 变忡. 化盏铎器的通3中，这柊枭遒代分 
期 《 kradonsptilSing 乂 if 多编译禧动过厅拽环1幵. MJb 进行遑代分割的装译器相奶比较少了1 


htCjl. I 


Tti 


Tsn 




I nul l 








这 0 


1 J 


Jift 2 


area 


n 在有琪资_悄次下，二次 1 幵 i 二路扦行的 i * s 取法搗作的《度 


凑以 .■< 个《 ( H 产年 ft 个 ft 7 


)1 一 方面，我们知绝;？点粼珐和 iuii . 不坫 r 『钴舍的， H 此， rtif 闘會 A 人或 溢比 . rtrtfeiKfi ffi 
eoraWrtei ^ ni 产生不网的_來，例如 F 馥&这枰一神怵) A , 斯有賫引怕为偶数«元#都是绝对 値孝 
常大的 St lltit 引 ffl 为竒 ft 的元載郝非常接 ifl 于 Oh 那么-_使 Jit 终的染 积心个 会似出， m ： PE r 
也。 r 能溢 〖 tu 或者 ~» n tlr 可 fitFSL 不过 i 大多 t 现实的《甲中 r 不太可能出现这 urn 情况 
大多 _? ti 理 续的，圻以 ft 手敢据也趋向 j ■•相、的平 滑，不合出^么 ㈣ 赶.即使足存不迕汰 


勸 
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的时候，它们通常也不会导致前面描述的条件那样的周期性模式。按照严格顺序对元素求和不太可 
能会钉比“分成两组独立求和，然后再将这两个和相加”根本 t 更好的准确性。对大多数应用程序 
来说，使性能翻倍要比对奇怿的数据模式产生不同的结果的风险更重要。怛是 * 程序开发人员应该 
与潜在的用户协商，看看是否有特殊的条件，可能会导致修改后的算法不能接受。 

就像我们能以任意次数 it 展开循环，我们也可以增加并行度为任意因了 ^使得可以被 
除。下®是对丁-不同展开次数和并行度的一些结果： 


P 


浮点» 




方 法 


展开度 X 2 

teJf 度 X 2, 井仃度 X 2 
展开度 X 4 

賊开® XI 并行度 X 2 
展开度 X 8 

展开度 XS ， 并行度 X 2 
展幵度井 tj 度 X 4 
展 JP 度 XS , 井厅度 X 8 
展幵度 X 9, 并 t 7 度 X 3 


h 50 


4.00 


3.00 


500 


K 5 fl 


2.00 


2.00 


2.50 


L 50 


4.00 


3.00 


5-00 


L 50 


2,00 


2.50 


L 50 


1,25 


4.00 


3.00 


500 


1.25 


2.00 


1.50 


2.50 


1.25 


1.25 


L 61 


2 00 


1『75 


1.37 


1.87 


2.07 


1.22 


166 


1.33 


2-00 


士:如这张表说明的那样，增加循环的展开度和并行度能帮助枵序性能达到某个点，但是当取到 
极限的时候，性能的增长就减缓了。在下一节中，我们将会描述出现这种现象的两个原因9 

5.10.2 寄存器溢出 （register spilling ) 

循环并行性的好处是受描述计算的 I 编代码的能力限制的 a 特别地， IA 32 指令集只有很少量的 
寄存器来#放累积的值。如果我们有井行度超过了可用的寄存器数量，编译器会诉诸于溢出 
( spilling ), 将某些临时值4放到栈中。一旦出现这种情况，性能会急剧下降。当我们试图使尸=8时， 
对我们的基准程序就发生了这种情况。我们的测量值显示此种情况下的性能比 P =4 时的性能更差。 

对于整数数据类型的情况，总共只有八个整数寄存器可用，其中有两个和 ％ e S p ) 指向 
栈巾的区域。在这段代码的指针版本中，剩下的六个寄存器中有一个要存放指针 dal 还有一个要 
存放停止位置 demh 这就只剩 F 四个整数寄存器可以用来存放累积的值了。在这段代码的数组版本 
中，我们需要三个寄#器来保存循环索引值停出索引值 limit , 以及数组地址 data 。 这就只剩卜 
三个整数寄存器 W 以用来存放累积的值对于浮点数据类型，我们需要八个寄存器中的两个来保存 
中间值，剩卜 六个用 f 累积值。因此，我们能得到在发生寄存器溢出之前，最大并行度为6。 

八个整数和八个浮点寄存器的限制是 IA 32 指令集的不幸产物。前面讲到过的重命名机制消除 
了寄存器名字和寄存器数据实际位置之间的联系 D 在现代处理器中，寄存器名字只简单地用来标识 
在功能单元之间传递的程序值。 IA 32 只提供了很少量的这枰的标识符，限制了在程序中能表达的并 
吁性的数量 t 

通过检查汇编代码就能发现溢出的发生.例如，在八路并行的代码的第，个循环中，我们看到 
下面的指令 序列： 


type-INT t OPER = f * p 

x6 in -I2(%ebp) y data+i in %eax 
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Get x6from stack 


mavl *12(%ebp),%edi 

imull 24 (%eax) f %edi 

movl %edi f -12{%ebp) 

在这段代码中，一个栈的位置被用来存放 x6, 八个局部变量中的一个被用来累积和。代码将这个值 
加载到一个寄存器中，将它乘以一个数据元素，然后再存回到同一个栈的位置中。作为一条通用原 
则，无论何时当一个编译了的程序显示出在某个频繁使用的内循环中有寄存器溢出的迹象时，它都 
会倾向于重写代码，使之需要较少的临时值。通过减少局部变量的数量能够做到这一点。 


1 


Multiply by d^mfi+ 6 ] 

Put x6 bock 


练习 S 5.5 

下面给出的是根据 combine 6 的一个变种产生的代码，它使用了八次循环展开和四路并行, 

1 .Llb2 

2 addl ( %eax) f %ecx 

3 addl 4(%eax) P %esi 

a.ddl 8 (%ea.x) r %edi 
addl 12 (%eax),%ebx 

addl 16 (%eax),%ecx 
addl 20 (%eax),%esi 
addl 24(%eax),%edi 
addl 28(%eax),%ebx 

addl $32 r %eax 
addl $8,%edx 
cmpl - 8(%ebp),%edx 
jl ,L152 

A . 什么程序变量被溢出放到了栈中？ 

B , 放到了栈中的什么位置？ 

C + 为什么将那个溢出值放到栈中是好的选择呢？ 


■ 

■ 


4 


8 


9 


10 


13 


12 


13 


使用浮点数据时，我们希望将所有的局部变量都放在浮点寄存器栈中.我们还需要保持栈顶可 
用于从#储器加载数据。这限制了并行度小于或等于7。 

5.10.3 对并行的限制 

对于我们的基准程序，主要的性能限制是由于功能单元的能力。如5 5.12 所示，格数乘法器和 
浮点加法器只能每个时钟周期发起一条新操作 。这， 加上对加载单元的类似限制,将这些情况的 CPE 
限制在了 1,0。浮点乘法器只能每两个时钟周期发起一条新操作 D 这就将这种情况的 CPE 限制在了 
2.0, 由于加载单元的限制，整数求和被限制在了 CPE 1儿这就导致了下面对达到的性能弓理论极 
限之间的 比较： 


浮点 


m 


1,50 


2.00 


理论限制 


L 00 


2.00 
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在这张表中，为每种情况，我们都选择能达到最佳性能的展开和并行的组合 * 对于整数求和和 
莱积以及浮点乘积 f 我们能够接近理论极限值。某个（或某些）与机器相关的因素将浮点乘法能达 
到的 CPE 限制在了 1.50, 而不是理论极限值 L 0。 


续习麵 5.6 

考虑下面的计算 n 个整教的教组乘积的函教.我们三次展开这个循环. 


int aprod(int a[] , int n) 


int l^ Xj 

int r ^ 1 
for {i - 0; i < n-2; i+= 3) { 

=a[i]; y = a[i+l]; z = a [i+ 2 ]; 

Product computatiDH 


y 


z 


X 


r 


r 


x 


Y ^ z; 


for {; i n; i++) 


=a[i] 


r 


return z 


对于标号为 Product computation 的行，我们可以用括号创建出计算的五个不同的结合 t 如下 


所示 r 


((r * x) * y) * z ； /* A1 */ 

y) ) # z; / + A2 V 


r 


(r 


r 


IX 


y) 


r = r 


IX 


U * (y * z)) : /* A 4 + / 

[y * z); /* A5 */ 

我们在 Pemium IU 上测试了函数的这五个版本 t 回想一下图 5.12, 在这种机器上整數乘法搮 
作的执行时间为4个周期，发射时间为1个周期。 

下面的表给出了一些 CPE 的值，也 漏掉了 一些，測董出的 CPE 值是实际观測到的 s “理论 CPE M 
的意思是当限制因素只为执行时间和整教乘法器时能够达到的性能. 

r"i* ~1 w 置出的 cpe 


r = r 


x) 


理论 CPE 


hi 


4.00 


2.67 


h2 


A3 


1,67 


A 4 


A5 


填写出漏掉的条目.对于漏掉的 CPE 的度量值，你可以使用来自其他有相同计算行为的版本的 
值.对于 CPE 的理论值，你可以只考虑乘法器的执行时间和发射 时间， 确定一次迭代所需的周期数， 

然后再除以3。 
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5,11 综合： 优化合并 ( Combing ) 代码的效果小结 

现在，我们 d 经考虑了合并 （ Combing ) 代码的六个版本，其中有的还有多个变神 。 U : 我们暂 
停卜，来看看这种努力的掖体效果，以及我们的代码是如何在一台不同的机器 h 执行的。图5,27 
给出的是对我们所有函数以及几个其他变种的度韋性能。正如看到的那样，我们只要简单地展丌循 
环多次，就能达到整数求和的最大性能，但是对子其他操作，我们引入一些（但不是很多）并行性。 
整体性能达到了 27,6倍，比我们原始的代码好了很多。 


浮点数 


页数 


329 宋优化的抽象的 

329 抽象的-02 

330 移动 


41()6 


160.00 


combl^el 

riel 


4 LS 6 


41,44 


31.25 




33-25 


14100 

135.00 


20.66 


2L25 


21,15 


romi>ine2 


lena^h 


vec 


直接数 据访问 

累积在临时变诤中 
展开 X 4 
後开乂 16 

展丌 X 2 t 并行 X 2 
展开并行 X 2 
M 开 XL 并行 


334 


600 


9,00 


800 


117.00 


coinbinsj 


2.00 


4,00 


combined 


100 


5.00 


347 


150 


4.00 


300 


5-00 


cjombine^ 


3.00 


5,00 


354 


1.50 


2.00 


2.00 


2.5 n 


combined 


1.50 


2.00 


1.50 


150 


\25 


1.25 


1*50 


L：t 


琅坏 ： m 


39,7 


27, 


33.5 




5,27 所有合并函数的结果比较 


件能 M 好的版本 用粗体 表示。 

5.11.1 浮点性能异常 

图 5.27 最引人注 H 的特性之一是，当我们从将 combinrf 的乘积累积在存储器中，到将 combin e 4 
的乘积累积在一个浮点寄冇器中，浮点乘法的周期数急剧下降 D 通过这么一点小小的改动，代码运 
行就快了 234倍。当出现这样一种 出甲意 料的结果时，猜测是什么可能引起这样的行为，然 后设计 
一系列试验来评估这个假设，这是很重要的。 

当我们查看这张表时，对浮点乘法的情况来说，如果将结果累积在存储器中，好像冇点奇怿的 
事情会发生 □ 即使功能单元的周期数是相当的，它的性能比浮点加法或整数乘法的性能都要差很多。 
在个 IA 32 处理器上，所有的浮点操作都是以扩展的80位精度执行的，而浮点寄存器也是按照这 

个格式存储值的。只有当寄存器中的值写入存储器中时，才把它转换成32位（浮点数）或64位（双 
精度）格式。 

检査我们测试所用的数据，问题的根源就很淸楚了。测试是在一个长度为1024的向暈上执行的, 

这个向暈的每个元# f 的值等丁因此，我们是在试图计算1024!，它大约是 5.4 Xl ( f 39 。 这样 

大的一个数可以用扩展精度的浮点格式（它可以表#到大约 10 4932 的数）表示 f 但是它大大超出了 

单精度（大约10巧或双精度（人约 10^) 能表示的范围。当我们到达434时，荦精度的情况就会 

溢出了，而当我们达到 i =171 时，双精度的情况就会溢出了 。一 &我 们达到这一点，每次执行 com bine 3 
的内部循环中的语句 
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dest 


dest OPER val; 

都要从 desi 中读值 + oo , 把它乘以 vaK 得到+办然后将它存回到 desL 很明显，这个计算的某个部 
分需要比浮点乘法所要的正常的五个时钟周期长得多的时间。实际上，对这个操作进行测试，我们 
发现用一个数乘以无穷大会花费110〜120个周期。很可能，硬件察觉了这个特殊情况，发出一个陷 
阱 〔 trap ), 它会使一个软件函数执行实际的计算， CPU 设计者觉得这样的情况会非常罕见，以至干 
他们不需要用硬件设计的一部分来处理它。对于下溢也会发生类似的行为， 

当我们在每个向 t 元素等于1,0的数据上运行基准程序时，对双精度和单精度， combines 的 CPE 
都达到了 KWK ) 周期。这与对其他数据类型和操作进行度鼉到的时间更加一致，而与 combined 的 
时间也是相当的 6 

这个示例说明了评估程序性能的一个挑战，原本看上去无足轻重的数据和操作条件能严重地影 

响测量结果。 


5.11.2 变换平台 

虽然我们是在一个特殊的机器和编译器环境中讲述我们的优化策略的，但是通用的原则也适用 
?其他机器和编牵器。当然，最优的策略可能是与机器相关的作为一个示例，图 5*28 给出的是 
CompaqAlpha 21164 处理器在与图 5.27 中所示的 PemiumlM 相当的条件下的性能结果。这些测试采 
用的是 Compaq C 编译器生成的代码，它使用了比 GCC 更多的高级优化。我们观察到，随着我们沿 

着表往下走，周期时间通常会降低，就像对其他机器一样。我们看到，我们能有效地运用更卨程度 
(八路）的并行，这是因为 Alpha 有32个整数和32个浮点寄存器 & 正如这个例子说明的那样，程 

序优化的通用原则对各种不同的机器都适用，即使某种特殊的特性组合会导致最优性能依赖于特殊 
的机器。 


1» 


329 未 优化的 抽象的 

329 抽 S 的42 


cotdbinel 


5107 


5171 


40,14 


47,14 


(^ofnbinel 


25,08 


36,05 


37,37 


3102 


移动 vec_lengch 


330 


19.19 


3273 


ccmbine2 


32,18 


28.73 


334 直接教据访问 

累积在 临时变1中 

展开 X 4 
. 展开>06 

354 I 展开 X 4. 并行 X 2 

展开 X 8, 并行 X 4 


ccmbine3 


6,26 


1152 


13,26 


nm 


335 


ccmbine4 

combined 


L 76 


9 + Dl 


i.Ql 


S .01 


347 


1.51 


9. Q 1 


6.32 


6.32 


1.25 


6.33 


6,22 


9.01 


cmbme & 


U 9 


4.» 


4,44 


4.45 


n 


2.34 


2.01 


424 


2.08 


最坏：最好 


36,2 


22,3 


267 


5,28 所有合并函数运行在 Compaq Alpha 21164处理器上的结果比较 

同样的通用优化技术在这神玑器上也有用。 
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5.12 分支预测和预测错误处罚 

正如我们前面提到过的，现代处理器在执行当前指令之前能工作得很好 + 从存储器读新指令， 
并解码指令，以确定在什么操作数上执行什么操作。只要指令遵循的是 -- 种简单的顺序，那么这种 
指令流水线化 （instruction pipeline ) 就能很好地丄作。不过，当遇到分支的时候，处理器必须猜测 

分支该往哪个方向走对于条件转移的情况，这意味着要预测是否会选择分支。对于像间接跳转（就 
像我们在代 码中# 到的 t 跳转到由个跳转表条 H 指定的地址）或过程返回这样的指令，这意味着 
预测标地址。在这里，我们集中讨论条件 分支。 

在个使用投机执行 (speculative execution ) 的处理器中，处理器会开始执打预测的分 支冃标 

处的指令。它这样做的方式是，避免修改任何实&的寄存器或#储器位置，直到确定/实际的结果。 
如果预测是正确的，处理器就简笋地“提交”投机执行的指令的结采，把它们存储到寄存器或存储 
器中。如果预测是错误的，处理器必须5弃抻所有投机执行的 结果， 在正确的位置，重新开始取指 
令的过程。这样做会引起很大的分支处罚 ( branchpenalty )- 因为在产生有 ffl 的结果之前 f 必须重新 

填充指令流水线。 

直到最近，支持投机执打所需的技术都被认为是开销太人，对除了最高级的超级 i 十算机以外的 
所有机器来说都是异乎寻常的。不过人约从1998年开始，集成电路技木使得 nj 以在一块芯片上放1 
如此之多的电路，以至于有些电路可以专门用来支持分支预测和投机执行。到 A 前，台式机或服务 
器中几乎每个处理器都支持投机执行。 

在优化我们的合并过程中，我们没有看到循环结构对性能的任何限制。也就是，看 hi 对性能 
惟一的限制因素是由于功能单元。对于这个过程处理，处理器通常能够预测循环结尾处的分支的方 
向。实际上，如果处理器总是预测会选择分支，那么除了对最后一次迭代以外，它都是对的。 

人们已经提出 Til ■多方法来预测分支，而且对这些方法的性能也进 行/很 多研究，一种常见的 
启发式方法是预测任意到较低地址的分支都会被选择，而任何到较高地址的分支则不会。到较低地 
址的分支是用来关闭循环的，因为循环通常会执行多次，预测这些分支会被选择是个好主意。另一 
方面， 前向分支是用 T 条件计算的。实验表明后向选择、前向不选择的启发式方法在大约65%的时 
间里是 正确的。而预测所冇的分支都会被选择的成功率只为人约60%。也有更加复杂的策略，需要 
更多的硬件 □ 例如 ， Intel Pentium II 和 III 处理器使用的分支预测策略卢称在90%〜95%的时间电都 
是正确的。 

我们可以进行实验来测试处理器的分支预测的能力，以及预测错误的代价。我们用图 5.29 中所 
示的绝对值函数作为我们的测试示例。这幅图还给出了编译后的形式。对 f 非负的参数，分支会被 
选择，以略过为负时的指令。我们妃这个计算十数组中每个元素绝对值的函数计时，这个数组是 
由+1和 -1 的各种模式组成的。对于规则的模式（例如，全+1、全 - t 或交替的+1和 -1), 我们发现 
函数箫要 13.01 〜 13.41 个周期，我们以此怍为我们究美分支条 件卜性 能的估计值。对丁个设置为 
+ 1和 -1 的随机模式的数组，我们发现凼数需要 20.32 个周期 4 随机处理的一个原则是无论用什么策 
略来猜测值的序列，如果底层的处瑝是真正随机的，那么我们只可能有50%的时间是正确的6例如, 
无论一个人用什么策略来猜扔硬币的结果，只要扔硬币是公平的，成功的概率就只能是0.5。因而， 
我们可以看到，这个处理器预测错误的分支会引起人约 W 个时钟周期的处罚，因为50%的预测错 
误率会导致函数运行平均慢7个周期。意思就是说，对 absval 的调用依据分支预测的成功率，耑要 
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13-27 个周期。 


code/opt/absvoi c 


int absvaL(int val) 


return (vai<0) ? : val 


code/opt/ahsvaL c 


( a 〕 C 代码 


absval r 
pushl %ebp 

movl %espi%ebp 
movl 0( feebp)；%eax 

testl %eaxjr%eax 

jge 

negl %eax 


Get val 

Test it 

If >0, goto end 
Else , negate it 


. L 3 


end ; 


L 3; 


movl %ebp,%esp 
popl %ebp 

ret 


10 


11 


( b ) 汇编代码 


5.29 绝对值代妈 




我们用这段代码来刺 t 分支预测错误的代价 D 

14个周期的处罚是相当大的 D 例如 * 如果我们的预测准确率只有65%，那么对每个分支指令， 
处理器平均会浪费 14 X 0.35=4.9 周期。即使是 Pentium II 和 m 声称的预测准确率是90%〜95%，由 

于预测错误，每个分支都会浪费大约1个周期。对实际程序的研究表明，在典型的“整数"程序（也 
就是，那些不处理小数数据的程序）中+分支大约占到了所有执行指令的13%,而在典型的小数程 
序中，分支大约占3%〜12% [33], 因此，由于低效率的分支处理造成的任何时间浪费都能对处理 
器性能产生很大的影响。 

许多与数据相关的分支是根本不能预测的。例如，没有任何依据猜测我们绝对值函数的一个参 
数是正数还是负数。为了提高包括条件求值代码的性能，许多处理器设计被扩展来包括条件传送 
Cconditional move ) 指令。这些指令允许某些形式的条件句不需要任何分支语句就能实现。 

在 IA 32 指令集中 ，从 Pentiumfto 开始增加了许多不同的 cmov 指令。最近所有的 Imd 和与 Intel 
兼容的处理器都支持这些指令，它们执行的操作类似于 C 代码： 

if { COND ) 


y; 


这里 y 是源操作数，而 x 是 H 的操作数。条件 COND 确定是否要执行拷贝操作，它是基于条件 
码值的某种组合的，类似于测试和条件转移指令，作为一个示例，当条件码表明一个值小于0 时， 
cmovll 指令执行一个拷贝。注意，这条指令的第一个 “1”表示 “less (小于广，而第二个 “ r 是 
GAS 表示长字的后缀 5 


K 面的汇编代码展示了如何用条件传送来实现绝对值: 


Get val as result 

Copy to %edx 
Negate %edx 

Test val 


movl 8(%ebp(,%eax 
movl %eax,%edx 

negl %edx 

test 1 f;eaXj %eax 
Conditionally move %edxto %eax 
cmovll %edx,%eax 


4 




//< 0 f copy %edx to result 


IK 如这段代码表明的那样，策略是将 val 设置为返 ["] 值，汁算 -va]， 井当 val 为负时 f 仃条件地 
将它传送到寄以改变返回值 4 我们对这段代码的测试表明无论数据模式怎样，它都运行 
13.7 个周期。该整体性能明显地好于需要13〜27个周期的过稃。 


练习® 5.7 

竹的一个朋友写了一个 訇用条 件传送指令的优化编译器。你试着编译下面的 c 代码: 


/* Dereference pointer or return 0 if null */ 

int deref(int *xp) 


■■ 


return xp ? *xp : 


编译器为过程体产生下面的代码。 


movl 8 (%ebp) , %edx 

(%edx) , %eax 
ted %edx, %edx 

cmovll %edx f %eax 


Get xp 

Get *xp as result 
Test xp 

IfO t copy 0 to result 


mov 


4 


解释一下为什么这段代码提供的不是 deref 的合法实现。 


GCC n 前的版本不用条件传送来产生任何代码 D 由子期望与以前的486和 Pentium 处理器保 
持兼容 * 编译器不利用这些新特性。在我们的试验中.我们使用的是上而所示的手写的汇编代砑。 
由于代码生成的质量更糟糕， 一 个使用 GCC 工具在 C 程序中嵌入汇编代码的版本需要 17.1 个周 


期 


不幸的是， C 程序员对改进一个程序的分支性能是无能为力的，除 了意识 到数据相关的分支会 
U 起性能上很商的花费。除此之外，程序员对编译器产生的详细的分支结构几乎没冇什么控制，很 
趨使分支更容易预测…些 t 最终，我们必须依靠两种因素的 结合： 一是编译器牛成好的代码，琢 f 
减少条件分支的 使用； 另一个是处理器有效 to 分支预测，降低分支预测错误的数景。 


5.13 理解存储器性能 

到 n 前为止我彳 n 写的所有代码，以及我们运行的所有测试，对存储器的需求都相对较少。例如， 
我们都是在长度为1024的向量上测试那些合并函数，数据量不会超过8096字节。所有的现代处理 
器都包含个或多个高速缓存 〔 caqhe) 存储器，以提供对这样少量的存储器的快速访问。 


5.12 
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中所有的计时都假设被读或写的数据是在卨速缓存中的 . 在第6章中 t 我们会更洋细地探究髙速缓 
存是如何」:作的< 以及如何编写充分利用高速缓存的代码。 

在本节中，我们会进一步研究加载和存储操作的性能，我们仍然假设被读或写的数据是在髙速 
缓存 中的。 如图 5.12 所示，这两个单元的执行时间都为3,而发射时间为1。迄今为 It : 我们的所有 
程序都只甩了加载操作，都有这样一个属性，一条加载操作的地址依赖于对某个寄存器执行增加操 
作，而不是依赖 P 另一条加载操作的结果。因此，如图 5.15 〜图5.18、图521和图5,26所示，加 

载操作能利用流水线化，每个时钟周期开始新的加载操作。加载操作相对较长的执行时间对程序性 
能没冇任何负面影响。 


5.13.1 加载的执行时间 

作为一个性能受加载矂作执行时间限制的代码示例，考虑函数 lisUd 如图 5.30 所/心这个凼 
数计算的是一个链表的长 釤在该 函数的循环中，变量 h 的每个连续的值都依赖于指针引用 ls->next 
读出的值。我们的测试表明函数 Ustjeii 的 CPE 为3几我们认为这是加载操作执行时间的直接反映。 
为了说明这 一点， 来考虑这个循环的汇编代码，以及它的第一次迭代到操作的 翻译： 


汇*捎令 


执行单元操作 


L27 ； 

inc] %eax 
movl (%edx) H Sedx 

Cestl % edXj%edx 

■ne .L27 


incl %eax.O 

load (%edx T 0) 

t,estl ■ 1, %edx. 1 

jne-taken cc h 1 


%eax. i 


. 1 


cc. 1 


code/optAistc 


typedef struct ELE { 

struct ELE *next; 

int data; 

} list„ele f *list_ptr 


2 


int list_len(lisc._ptr 丄 s) 


int len = 0 


for (; Is ； Is = ls -> nexL ) 

len ++; 
ireturTi len ; 


*1 ■ 


13 


cade/opt/list.c 


5,30 链表函数 


这举例说明了加载垛作的执行时间 


寄存器的每个选续的值都依赖于一个以 ％ edx 作为操怍数的加载操作的结果 ，图 5.31 给出的 
是这个蛾数头三次迭代的操作的调度。止如看到的那样，加载操作的执行时间将 CPE 限制在了 3.0. 
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电 eax ■ 0 

%-edx. 0 


ircl 


incl 


lead 


2 


mcJ 


3 


r ^ 


test 


4 


pe 


load 


Q 


5 




送代 1 


6 




,2 




testl 


c,2 


jne 


load 


迭代 2 


9 


3 


t$St 


10 


jne 


n 


迭代 3 


5.31 链表长度函数的揉作的调度 


加载搛怍的执行时间将 CPE 的最小值限制在 f 3.0 。 


5.13.2 存储的执行时间 

在迄今为 il _. 我们所有的小 例中， 我们只通过使用加载操作从一个存储器位置读数据到一个寄存 
器中来与存储器交5。4之对应的，存储 （ sto K ) 操作将 个 寄存器值写到存储器 D iK 如圈 5 J 2 表 

明的那样，这个操作名义上的执行时 N 也 是二个 周期，发射时间为一个周期。不过，它的行为以及 
它与加载操作的交互有几个微妙的问题。 


code/cpt/copy^c 


1 /* Set dement of array to 0 

void array_clear(int + src, int *dest, int n) 


2 


4 


for (i 二 0; i < n ； i+f) 

dest[i: 


0; 


9 


10 产 Set elements of array to 0, unrolling by 8 *1 

11 void array_clear_8；int 


int Mest, int 


sre 


n I 


12 


13 


1 rtt i ； 
int len 


14 


- 7； 


n 




15 
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tor (i 


len; i+-8)[ 


16 


dest[iJ - 0; 
dest fi + 1] ; 0 ； 

dest[i 十 2] = 0; 

dest [ i +3] = 0; 

c3eKt[i+4] - Or 

dest[i+5] : 0 ; 
desL [ i —6] - 0； 
dest[i+7] = 0; 


18 


19 


20 


21 


22 


23 


7A 


2b 


for {; i 


) 


26 


1+ 


dest(i] 二 0; 


27 


28 } 


code/opt/copy 


5.32 清空数组的函数 


这说明了存鍺操作的流水线化。 


与加载揀作一样，在大多数情况中，存储操作能够在完全流水线化的模式中工作，每个周期幵 
始一条新的存储。例如，考虑图 5.32 中所示的函数，它们将一个长度为 n 的数组 dest 的元素设置为 
我们对这第一个版本的测试表明 CPE 为 2 XKh 因为每次迭代都需要一个存储操作，所以很明显 

处理器至少每2个周期能够 开始- 条新的存储操作。为了进一步探究，我们试着展开这个循环八次， 
如 anay _ de ar _8 的代码所示。对于这个函数，我们测量得到 CPE 1.25。也就是，每次迭代需要大约 

10个周期，并发射8个存储操作。因此，我们几乎己经达到每个周期一条新存储操作的最优极限了。 

同到3前为〖 I :我们己給考虑过的其他操作不同，存储操作并不影响任何寄存器值。因此，就其 
本性来说，一系列存储操作定是相互独立的。实际上，只冇一条加载操作是受一条存储操作结果 
影响的，因为只有一条加载操作能从由存储操作写的那个存储器位置读回值 t 图 5.33 所示的函数 
write . read 说明了加载和存储操作之间可能的相互影响。这幅图也展示了该函数的两个示例执行， 
是对两元素数组 a 调用的，该数组的初始内容为 -10 和17,参数 cm 等子3。这些执行说明了加载和 
存储操作的一些微妙之处。 

在图 5.33 的示例 A 中，参数 src 是一个指向数组元累 a [0] 的指针，而 ( test 是一个指向数组元素 
a [ l ] 的指针。在此种情况中，指针引用心的每次加载都会得到值-10。因此 t 在两次迭代之后， 
组元素就会分別保持固定为 -10 和从 src 读出的结杲不受对 dest 的写的影响。在较大次数的迭 
代 k 测试这个示例得到 CPE 2.00。 

在阁 5.33 U ) 的示例 B 中，参数 src 和 dest 都是指向数组元素 a [0] 的指针。在此种情况中，指 
针引用 Src 的每次加载都会得到指针引用* d es t 的前次执行存储的值。因而， 一 系列不断增加的值会 
被存储在这个位置 6 通常，如果调用函数 write . read 时参数 src 和指向同 一 个存储器位置，而 
参数 cnt 的值为 n >0, 那么净效果是将这个位置设 t 为/ i - U 这个示例说明了一个现象，我们称之为 
写 /读相关 （ writ e / rea d dependency ) -—一个存储器读的结果依赖 f 一个非常近的存储器写。我们 
的性能测试表明示例 B 的 CPE 为6,00,写/读相关导致处理速度的下降。 


Q 


code/opt/copy.c 


f* Write to dest, read from src */ 

void write_read(int 


1 


2 


int *de^t, int n) 


src 
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4 


int cnl 
i nt val = 0 ； 


n; 


6 


while (cnL - )( 

clest = vdi ; 

(*src)+1; 


8 


女 


9 


val 


10 


11 


code/opt/copy\c 


小例 A : write reac i&a [■]■■ 』 [ 1 J 』 3 ) 


迭代 3 


迭代 1 


8 代 2 


初始 


cnt 


0 


2 


3 


-10 -9 


-10 


9 


10 17 


-10 0 


a 




-9 


-9 


0 


■9 


val 


承例 B : write read(&a [ 0 ] ^ ficafO ] P 3 } 


初始 


迭代 1 


迭代 3 


迭代 2 


cnt 


3 


0 


2 17 


-10 17 


0 17 


17 


a 


3 


val 


0 


5.33 写和读存储器位置的代码以及示咧执行 

这个 # 数强 fl 的是 4 参数 src 和 destSHf 时，存储和加栽之间的相互影响。 




为//解处理器是如何[ X :别这两种恃况的，以及为什么一种情况比另一 种运仃 得慢， 我 们必须 
更加仔细地看看加载和存储执 行甲兀 ，如图 5.34 所小。存储单 7 C 包含个存储 缓冲区 （store buffer ), 
它包含己抒被发射到存储吊元而又还没有宂成存储操作的地址和数据，这里的完成包括更新数据高 

速缓存 * 提供这样-个缓冲区，使得一系列#储操作4、必等待每个操作吏新卨速缓 存就能 够执行。 
当条加载操作发生时，它必须检查存储缓冲区中的条 H , 看有没有地址相匹配。如果有地址相匹 
配，它就敗出相应的数据 条目作 为加载操作的结果。 

其中内循环的汇编代码和它的第-次迭代到操作的 翻汗如 卜_所小： 


汇编指令 


执行单元操作 




nr.ovl %cdx r ^ 


hi (JI ] 

storedata %edx.0 


rrovi (%etx} , %ecix 
incl %ed>: 

dec ] %eax 

jnc .Lj2 


load (%eb^} 
inc 1. la 


%edx. la 


%edx. lb 


decl ^eax T 0 

■^nc-take" cc. 1 


电 ecu 1 


It 化 界序《|| 


姻 


申元 


存 


f . & 


關 




驢 




UK 


: an 


n?f 


m w _ 


田5.34坊 a 和存坫单元的■节 

fttn 巾冗乜禽 一 个 a R 什的孖的 t ? Fpt ^ tu jr # 元 # ma a 它 wa « 敁 a y 存偏 》 jc ■中 k rt jmi 町 ■ 以写風 ^vsa s 


汉 ffifr 到， m.w?vi%^dx r ( 1 汉幻 »_ 详成内个 » 作 ： 令 ititftM 鼉作 m 抽址 , 
创姐一个 ftftc 缓冲区中的 4 〖 1 . 井 aw 诙条 II 的地址肀段 ！ 梅今 sw 谀#=_的牧掮宇段 ■ 

W 为 ilft — 个 f fiHf JL 而存雠 # 作是按雁祝序 _ 序 &« 的，所以 两个檄 作⑽何协 调班没 钉歧文时 . 

Ij ■: mm 到的 is#, ISM 个计 ，的 执行 i 相 s 独立的 *1— 亭束对 iv 字性耽来说叫 mmM, 

阄给出了对于承例 A miHUr 的头两次迭代晚砟的时序 * 如 srareaddr 和 ] ofd 


找作之_的*线表明的那样_ _ i « ddr » 作创辻•个存砧级冲区中 的熹1 然后 bed 会嗆食这个条 
F 1。 因为这两个哚作丼不等价 3 听以]™!拗 IT 合播缕从島速_存中读数识故存钻撮作还没有完 
成 ■ JIS 器仍然怖它影_的存置不间于国嫌拥«胃 ■ ■ | 

iifV . 这电 ■ 我 f ] 能«判如 mliU 摊作 i 須等 待. ft 釗如级鞠埽加了耵一次选代的 钴栄. 在此之前 
很久， wmaddf 哚作$ 1_撫作可以比校它们的地址 是萑相 N , 痛11：它扪裊不同的， ttft 杆加糊 * 
作雜读近行1 在 ftf 〗 W 计算图中.埔示了第二 次迭代 ffj 加玫饮 在*-次迭代的 ip 栽后 a 个 开始 
洗 ff 』 如 ! fc _ 绨史多的迭代 . 我们就会发現 i | 个閲衣 1 CTE 为 U 0, 很明 i _ 某个吒他的资典约# 

能阪斛在了 上， 

铯出了对于的情祝_训^_1«时的失两次迭代捭作的时序，词忭地. Mflrtddr 和 

悚作之间的虚线 * 明 ■ 梭作釗计个存搞蠼冲 I?. 中的条 FI ■ 然后 hid 会检 « 这个条 1 1 * 

W 为这些条目 梆疫一 ft ■ 的 . 祈以加载必 霣等捋 _ « 


.二 次迭代 仍会重蓖这个 


I ■ | aH 作完成，然后它苒从存试线冲闻中 

快得»谳•这个等悔在图中1以 tori _ 作如 长了旳_來*示的，此外，拽们展垆了 一条从你 _ la 

棵作咏 t 线 t 尖.它灰: H Mi>mijj(a 的钴 !J! 喊栉递釗 3_i 作为它的访果_我 f ] 这扣嫌怍的时 
坪反峽:了 SSlMfli 的 CPE 为 6_0 h 不过，这 ft 的时序 ttWHi 如纣出现的，还不 ftSi 免清 fe . 听以这 

柱 WHft# 意说叫 性的. 而不逆实私的，通常_ 晚埋褂 /存柚器接0岛灶押器设汁屮谞奴鉍的邪分之 
一，不迕阒洋 fa 的文 ft 和使用机器分析1：具，我们只能给唞实 Rflj 为的一今個 S 的描述 B 

扣这 ft 个剖 f 麻示，#柚》_作的丈现包含《;细阑的呙|^ 対于布 々攜哚作，江柑令 W 蚂成 
类作时，钕 n 捃铁叩以_定哦^拘 t 会唞 咱另忤 W 些 指令. S —方 M , 对子 # filS (威内#) » 作— 


Hot 




)\ 
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在加载和存储地址被汁算出来之前，处理器都不能预测哪些指令会影响另外哪些指令 D 由丁存储器 
操作占到了程序很大的一部分，存储器 f 系统被优化成以独立的存储器操作来提供吏人的并行性。 


decl 


store 




load 


decl 


|nc 


2 




data 


addr 


Store 

addr 


load 


3 


S 


5? 4 


incl 


lb 


ind 


5 


迭代 1 


store 




data 


迭代 2 


5+35 对示例 A 的 write _ read 的时序 

存储利加裁 S 作有的地址，因此可以不等待存储就进打加栽。 




%eax, 3 -- 
%edx.O ^ 


decl 




store 

data 


store 

addr 


2 


jnc 


leax.2 


store 

addr 


load 


J 忙 


Iredy . 


ind 


6 


load 




m. 


这七 


store 


data 


10 


11 




12 


incl 


这代 2 


5.36 对示例 B 的 writejead 的时序 

存储和加载垛怍有相同的地址，因此加载必须等待， a 到它可以从存储获得结果了。 
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螓习 n 玷 

作为男』个具有簪在的加栽 ™ 存神相 i 妨响的代码 ， 考邐下 * 的 * 教 . * 抖一个教相齣内 t 拷 
相另一个麩 Jai 


voi d cdpy _- fic：fcfay I InL 


int # dEst P int p ] 


1 


arc 


int ip 


far *| i _ Dp i < ti\ i-t + S 1 


s 


# 


dest：|i 1 


*^cli b j 


WUA — ⑽⑽的歡组 i 它被初柏化为每个无* ilH 等于匕 
A . ill.lfl copy] h 1999) 的敢果 Jt 卄么？ 

El . 调用 wl . 种外的 ft 氣是什么 9 

C 我们的明 A 谝啤的 CPE 为 3.00, 而问 ft K imfl 的 CPEiH.Mi _ 认为 1 什 

iPSfil 成了这 搏的性 SUL 界？ 

Dr 坤用 ps^^nniyf:^ 氣 的性霉合是怎 4 的 ’ 


5.14 现实生活；性能提高技术 

诅粑我扪只芩虑了_限的_咀逊用程序， init 夜 fmfe 枏出关 ffeuf n ]_ 写 ft 效代码約拫 ft 要的辨 
训。已捽描违丫许多优化程哼 性晚的 l 本进畤： 

i _ 高级设计.为 f 边的问豳选择适当的 n 和数街_构，费特别»觉， I 免使 巾会渐 进地产生 
_糕性晚的算祛或咮呌技术。 

1良私编 碭庳 w 。 逆免睜制优化的 ! it , stM 嫌》软能产 f « afe 的代 
琴 在可齚时，将计 jffi ■到 t 环外.芎虑有选择的 s 协: ri ?- 的 « s 炔性以 

* 濟 眯不必 f 时介键埋引甩，引入临时务歎来保存中问铭 W . 只有在最 js 的愤 ii ' jrm 来时， 

才柙结 圯存敢到致租虞全周 tt 屮 a 

3,低级优化 + ■ 

• 眷 试## 与*组代 Wtt __ 珉式. 

• 通过 Jft 汗憚环驿 feffi 环开稍， 

* 血过请如达代分狖之奘的技 t 找 到使用典水线 ftw 功平元 m 方法， 

赛+心避免花费构力在令人误解的结采上， 一卬有 ㈩ 的技冰 < b 在优 

化代科时使用柃衡代眄 khwkir ^ cwteJ 衮測式代码的 w 个 te 本， 以确保在这一过枰中找有別入格 

误， ^ ttm ^- mmmm \ m \^ _保它拇到_申.的蛙米， s 切入) 哽*， 改变■边 

界，以及使代码 ft 体史 I 杂 HI % tlWSHm . 叱朴，冲敢刹性晚上任何不间4常的或 iH 乎 ItftWf 

化班 m « 电时， iT ■:如我们己妗我明的®咩，榭于性晚诗 t . 壤准敢拥购选择_够在性晚 比校中 ® 成 

|&大的妲异.因为我⑴只执行 s 持令序列， 
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5.15 确认和消除性能瓶颈 

到此刻为止，我们 M 考虑了优化小的程序，在这样的小程序中，耑要优化的地方很 淸楚。 在处 
理大程序时，茛至 于很难 知道应该优化什么。在本节中，我们会描述如何使用代码剖析程序 (code 
profilers ), 这是在程序执行时收集性能数据的分析1：具。我们还展小了 _个系统优化的通用原则， 
称为 Amdahl 定律 ( Amdahl ' slaw ). 


5.15.1 程序剖析 

程序剖析 ( profiling ) 包括运行程序的这样一个版本，其中插入丫工具代码.以确定程序的各 
个部分需要多少时间。确认出程序中我们需要集屮注意力优化的部分是很冇用的。剖析的一个有力 
之处在于 nj 以边在现 实的基准数据 (benchmark data ) 上运行实际的稃序， 一 边进行剖析。 

Unix 系统 提供广 -个剖析程序 GPROF 。 这个程序产生两种形式的信息 。 首先，它确定程序中 
每个函数花费了多少 CPU 时间。其次，它计算每个函数被调用的次数，以调用函数來分类。这柯种 
形式的信息都非常有用。这些 it 时给出了不同由数在确定整体运行时间中的相对重要性。调用信息 
使得我们能理解程序的动态 行为。 

fflGPROF 进行剖析需要二个步骤，就像所示的对 C 程序 progx 那样，它运行时命令行参数为 


fileAxt ； 


1,枵序必须为剖析 ifU 编译和链接。使用 GCC (以及其他 C 编译器)，就是在命令行上简单地包 
括运行时标忐 


■ P 8 


umx> gcc -02 -pg prog.c -o prog 


2. 然后程序像往常-样执 1 丁： 

/prog file^txt 

它运行得会比正常时稍微慢-点， 小过惟 一的区别就是它产生 r 一 个文件 gmon.out, 

调用 GPROF 来分析 gmon.out 屮的数据。 

gprof prog 

剖析报告的第…部分列出/执行备个阑数花费的时间，按照降序排列，作为一个示例， k 向列 
出了报 告中关于程序 中头二 个蚋数的那一部分： 


urii > > 


ilnix> 


cumula 二 ive 

seconds 

7.80 

8.40 

8-81 


se] f 


self 

calls ms/call ms/call name 

1 ^ BOO.OO 

0 + 00 
0.00 


total 


time 

85.5? 


seconds 


,80 


800 * 0C sort_woi:ds 
0, OC f ind_e.le 
0,OC l^werl 


0.60 946596 
3.41 946596 


re 二 


4. B 0 


每一行 代表对某个凼数的所冇调用所花费的时间。第•列表明花费在这个函数上的时 M 占粮个 
时间的百分比。第_列显示的适育到这-行并包括这一行的闲数所花费的累 it 时间。第 i 列 显小的 
是花费在这个函数上的时间 t 饰第四列昆示的是它被调用的次数（递灼调用不计算在内）。在我们的 
例子中，凼数 sort_wonisH 被调用了一次.但就是这一次调用需要 7.80 杪，而阑数 lowerl 被调用了 
946 5%次，总共需要 (U1 秒。 

剖析报告的 第-部 分给出的是这个函数的调用历史。下面是一个递 H 闲数 fmd _ el e _ re c 的历史: 
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4872758 


find_ele_rec [5: 


0.60 

0,60 

0.00 

0.00 


0.01 946596/946596 insert^string [4] 

0.0: 946596+4872758 find_ele^rec [5] 

0*01 26946/26946 

0.00 26946/26946 

4372758 


[5] 


save_st:ring !9] 
new 一 ele [11] 
find_ele_rec [5: 


这个历史既显氺了调用 fmd . ele . rec 的 函数， 也显示了它调用的函数。在 J : 面…部分中，我们 
发现这个函数实际上被调用了 5 819 354次（显示为 “946596+4872758”) ——它己调用了 4 872 758 
次，而函数 insert_string (它本身被调用了 946 5%次）调用了 946 596次。函数 find _ ele _ rec 依次调 
用了另外两个函数 save _ string 和 ™ w _ el e , 每个函数总共被调用了 26946次， 

根据这个调用信息，我们通常可以推断出关于程序行为的有用信息。例如，函数 find . ele^c 
是一个递归过程，它扫描一个链表，查找一个特殊的字符串。假设递归与顶层调用的比率是5.15, 
我们可以推断出它每次平均大约需要扫描6个元素。 

GPROF 有些属性値得 注意： 

• 计时不是很准确。计时是基于一个简单的间隔计数 （interval counting ) 机制的，在第9章 

中会讨论这个问题。简而言之，编译过的程序为每个函数维护■个计数器，记录花费在执 
行该涵数 t ： 的时间。操作系统使得每隔某个规则的时间间隔 A 稈序被中断一次。 （5 的典型 
值的范围为 1.0 〜 1( X 0 毫秒 □ 当中断发生时 f 它会确定程序正在执行什么函数，并将该阑数 
的计数器值增加&当然，也吋能这个凼数只是刚开始执行，而很快就会完成，却赋给它从 
上次中断以来整个的执行花费 4 在两次中断中也可能 迗行其 他某个程序，却因此根本没有 
计算花费 5 

对于运行时间较长的程序 f 这种机制 r 作得相当好，从统 i 十 t 来说，应该根据花费在执行函数 
上的相对时间来对每个函数汁算花费。不过，对于那些运行时间少 f _ 丨秒的程序釆说，得到的统计 
数字只能看成是粗略的估计值。 

* 调用信息相当可靠。编译过的程序为每对调用者和被调用者维护一个计数器。每次 调用一 

个过程时，就会对适 当的计 数器加 U 

• 默认情况 F ， 不会显小对库函数的调用 D 作为替代，对库函数调用的次数体现在了调用函 

数的次数中。 

5.15.2 使用剖祈程序来指导优化 

作为一个用剖析程序来指导程序优化的示例，我们创建了 一 个包栝儿个不 N 任务和数据结构的 
程序。这个应用程序读一个文本文件，创建一张互不相同的单词和每个单词出现次数的表，然后按 
照出现次数的降序对_卞』排序。作为基准程序，我们在-个由莎士比亚伞集组成的文件上运行这个 
程序，据此，我们确定莎士比亚一共写 r 946 596个笮词 T 其中26946是互不相冋的。最常 M 的单 
同是 “ the ”， 出现 f 29 801次。申词 " love " 出现了 2249次，而 “ death ” 出现 f 933次， 

我们的稈序是由下列部分组成的，我们创建了…系列的版本，从各部分简单的算法开始，然后 
再换成更成熟完兽的 算法： 

L 从文件中读出每个单间，并转换成小写字母。我们最初的版本使用的是函数 bwerH 图 5.7), 
我们知道它的复杂度是二次的。 
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2. 对字符串应用一个哈希函数，为一个有 j 个表元 (buckets) 的哈希表产 屯一个 0 〜 a 1之间 
的数字。我 们朵初 的函数只是简 竿地对 字符的 ASCII 代码求和，再对 r 求模。 

3. 每个哈希表元都组织成一个链表^程序沿着这个链表扫推，寻找个匹配的条 H。 如果找到 
了，该单词的频度就加1。否则，就创建一个新的链表兀素。我们最初的版本递归地完成这个操作， 
将新元素插在链表尾部。 

4. 一 fl 己迕生成广这张表，我们就根据频度对所有的元素排序。我们最初的版本使用插入排序。 
图 5.37 给出 r 我们的单词频度分析程序各个版本的剖析结果 t 对于每个版本，我们将时间分为 


五类 


Sorts 按照频度对单刘排序。 

List ； 为匹配申词扫描链表，如果耑要，插入 - 个新的元素。 

Lowtrs 将字符串转换为小写字母。 

Hash : 计算哈希函数 & 

Rest ： 其他所有函数的和。 

如图屮 U ) 部分所示，我们最初的版本耑要9秒多钟，大多数时间花在了排序上。这并不奇嗶 f 
因为插入排序奋二次复杂度，向程序对27 000个值进行排序。 

在我们下-个版本中，我们用库函数 qsort 进行排序，这个函数是基于快速排序算法的。在图 
中这个版本称为 “ Quicksort ' 更有效的排序算法使花在排序上的时间降低到可以忽略 + if _, 而整个 
运行时间降低到大约1.2秒。图的 〔 b ) 部分给出的是剩下各个版本的时间，所闬的比例能使我们看 
得更清楚。 

改进了排序 f 现在我们发现链表扫描变成了瓶颈。想想这个低效率是由于病数的递归结构引起 
的，我们用一个迭代的结构替换它，显示为 “It«First”。 令人奇怪的是. 运打时 N 增加到了大约 I.S 
秒。根据更记一步的研究，我们发现两个链表函数之间有一个细微的差别，递归版本将新元素插入 
到链表尾部，而迭代版本把 它们插 到链表头部。为了使性能 M 大化 f 我们希望频率最卨 的单词 出现 
在链表的开始处。这样一来，函数就能快速地定位常见的情况 。 假设单询在文 捫中是 均匀分布的， 
我们期望频度品的单词的第- 次 出现在频度低的单词的第一次出现之前。通过将新单词插入尾部， 
第…个闲数倾向于按照频度的降序排序，而第一，个函数则相反，因此我们创建第二.个使用迭代的链 
表扫描函数，不过是将新元素插入到链表的尾部。使用这个版本，显水为 “Ito Last”， 时间降到了 
大约 1.0 秒，比递归版本稍微好一点。 

接下来，我们考虑哈希表的结构。最初的版 本只有 1021个表元（通常，会选择表元的个数为素 
数，以增强哈希函数将关键字均匀分布在表元中的能力）。对于一个有26 946个条目的表宋说，这 
就意味着平均负载 （ load ) 是26946/1007=264,这就解释了为什么有那么多时间花在了执行链表操 
作上了——搜索包括测试人暈的候选单间。它还解释/为什么性能对链表顺序这么敏感因而， 
我们将表元的 数量增 加到了 10007,将平均负载降低到了 2.70。不过，很竒怪的是，我们的整体运 
行时 N 增加到了 l . ii 秒。剖析结果表明增加的时间主要花在 r 小写字吁转换函数上，虽然不 火町能 
是这样的。我们的运行时间过于短了，我们+能期望这些计时非常精确 a 

我们假设表变大了而性能变差了是因为哈希函数选择得小太好9简单地对字符编码求和不能产 
生一个大范围的值，也不能根据字符的分类做出区分。例如，_.词 “ god ” 和 “ dog ” 都会哈希到位 
置】47+157+144=448 T 因为它们包含 柑间的 字符。单词“ foe ”也会哈希到这个位置 f 因为 


l 46 fl 57 + i 4 M 4 S , 我们換成 _个使 用和或揆作的玱 祀_数*使 用这个故本， I #* "Bdlrr 
Hash ， 时 HTW 到了 fl , B 4 秒* 一 个更加■统化的方法 ISE 加 fflffl 地研宄关键？仵衣允中的分 * T 
& CS 4 哈 A 甬数的_出分舟是均匀的，》么《保 i | 个分布核近 沪人 扪明茔的那 II , 


I.? 


0 


!fe 




ft 


y 


( K 6 


D>.4 


02 


h rsl 


Hflr 


iittarh I U 


餘 TAttij 恭以蚱的本 

s : 向拜 s 计 c « 序各个 s 本的刑结*时 4 mmn 序中不冏的主 i 攮怍划分的 

■ 我们把迖行_阄陴到了一，__间展花存执行小写宇_转換上了*版们已奸#剀了鴻& 
town 的性能很 e ， 畤別慝对长 T 符串*说.这1文橙中的甲岡愿等1 + 衡 M 免」次性能 (qiHdiviic 
pwfomuiwcj 的灾 i * 性的钴栽； W 长的 喵诵 rJmmiifltibilihKttiniwitus ， 松攻^1274字符.不过 
换成棚》0 ^ ■ 承为 H Li « arU*w 师 师角 ift 好的整个时间》到，152#, 

1过这个綠习,我们 r 代 wm 圯能»待肋将一个筒峨風用 r 序所冊 的时向 从依〖]秒 sift 到 

-提高到了 17.3 . ( H 祈梓序 ffi 助枧们把 rt 息力東_ 相柙 序及耗时捫部分上，网时还提供 

了关于 过稅消 用钴构时有明信恩* 

我1_]叫'以#利> 別析是丁具箝中一个很幵用的 it 具1袒是它不应改 its —一个*佧时剿谈不进 
很相确.特别是对较1的运七时间 t 小 t 1 秒〉 東说， 结史只适 ra r 被《 试的 I 些#扶的 

〔 ■ 如裝我们祝如较少 »* 的较长 y 符申组成的败挺上运行遍钊的通赴，我 r 会发嫌宇姆柃換 

■韭的件晚 m «. 史_炫的 i . 知采它只割析包禽&单 h 的文档，我们可能不会发坩! &覼 
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着的性能杀手 t 例如 lowerl 的二次性能。通常，假设我们在有代表性的数据 上运行 程序，削析能帮 
助我们对典型的情况进行优化，何是我们还应该确保对所有 nj 能的情况，秤序都冇相$的性能。这 
卞要包括避免得到糟糕的渐近性能 ( asymptotic performancre ) 的算法（例如插入算法）和坏的编程 
$践（例如 lowerl )， 


5.15,3 Amdahl 定律 

Gene Amdahl (计算领域的先驭之一）做出了 -个关于提高系统一部分性能的效果的简中但是 
富有洞察力的观察 D 这个观察现在被称为 Amdahl 定律 . 其主要思想是 2 我们加快系统一个部分的 
速度时，对系统整体性能的影响依赖于这个部分 W 多重要和速度提卨 f 多少。考虑-个系统，作其 
中 执行某 个应用秤序需要时间 rw 。 假设系统的某个部分耑要这个时间的存分比为1 rffi 我们将它的 
性能提岛到了 it 怙：也就是，这个部分原来耑要时间而现汴_要时间因此，幣个执 

行时闯会是 


= (1-or)7；^+(^}/i 
= T oU [(\~a) + a/k] 


new 


据此，我们 nf 以汁算加速 


(5,1) 


S = 


(]-a)^afk 

作为…个示例，考虑这样一种情况，系统原 来心用 60%时间 ( a :0.6) 的部分被提卨到了 3倍 
C ^3), 那么我们得到加速〗/[0.4+0.6/31=1+67。因此，即使我们人幅度改进了系统的一个 t 要部分， 
我们的净加速还是很小。这就是 Amdahl 定律的主要观点——要想大幅度提高整个系统的速度，我 
们必须提尚整个系统很人一部分的速度。 


练习題 5.9 

假设你的职业是卡车司机，你被雇佣运送一车土豆从 Idaho 的 Boise 到 Minnesota 的 Minneapolis , 
总距离为2500公里，你估计在速度限制以内你开车的平均时速为100公里，整个行程需要25小时。 

A . 你在渐闻里听说 Montana 剛別取消了它的限速，这段路程有1500公里。你的卡车可以开到 
每小时15【)公里 . 你这次行程的加速 （ speedup ) 会是多少？ 

B . 你可以在 www . fasttmcks.com 为你的卡车购买一个新的滿轮增庄器 & 它们有许多样式，不过 
想开得越快，花费訧越大。要想行程加速达到5/3,你必须以多大的速度通过 Montana ? 

练习题 5.10 

你公司的市场部门许诺你的客户下一版软件性能会提高一倍，分配给你的任务是就这个承诺发 
表意见。你确定只能改进系统80%的部分，为了达到整体性能目标，你需要将这个部分提高到多少 
(也就是， t 的值应为多少）？ 

AtmiaW 定律的一个有趣的特殊情况是考虑将 fc 设为的的效茱也就是，我扪能够取出系统的某 
个部分，把它的速度提高到时间吋以忽略不计的程度。那么我们得到 


S 


52 ) 


(1- a ) 
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因此，例如，如果我们能够将系统60%的部分速度提高到它所需要的时间接近于0,那么我们 
的净增速也仍然只为1/0.4=2+5 & 当我们用快速排序取代插入排序时，从我们的字典程序中就 能宥出 
这八性能 a 最开始的版本花费它 9.1 秒中的18秒来迸行插入排序，得到《=0.86。使用快速排序， 
花费在排序上的时间变得可以忽略不计，得到预测的增速为71实际实际的增速要高。点： 
9.11/1,22=7.5, 这是由于对初始版本的剖析测试的不准确性造成的，我们能够获得人的增速，这是 
因为排序占到了整个执行时间的一个 t 常大的比例， 

Amdahl 定律描述了一个改进任何过程的通用原则。除了适用于提高计算机系统的速度之外，它 

还能指导一个公司试着降低4 产剃 须刀的成本，或是指导一个学生改进他或她的平均绩点 D 或许它 

在计算机仳界里最有意义，在计算机世界中，我们通常将性能提高一倍或更多 t 只有通过优化系统 
很人的一部分才能获得这么高的提高率， 


5-16 小结 

虽然关; r ■代码优化的大多数论述都描述 r 编泽器是如何能生成高效代码的，但是应用程序员有 

很多方法来协助编译器完成这项任务。没有任何编译器能用一个好的算法或数据结构代替低效率的 

算法或数据结构_因此程序设计的这些方面仍然应该是程序员主要关心的6我们还看到妨碍优化的 

因素，例如存储器别名和过程调用，严重限制了编译器执行人量优化的能力。同样，程序员必须对 
消除这些妨碍优化的因素负卞要的责任 。 

除比之外，我们还研究 r 一系列技术，包括循环展开、迭代分割以及指针运算。随着我们对优 

化的深入，研究汇编代码以及试着理解机器是如何执行汁算的变得重要起来。对 f 现代、乩序处理 

器上的执行，分析程序是如何在有尤限处理资源但是功能申元的执行时 K 和发射时间与 K1 标处埋器 

相符的机器上执行的，收获良多。为了精练这个分析，我们还应该考虑诸如功能单兀数暈和类型这 
样的资源约束。 

包含条件分支或储器系统复杂交互的程序，比我们背先考虑的 简竽循 环稈序 t 更加难以分 
析和优化。基本策略是使循环更容易预测，并试着减少#储和加载操作之间的相互影响。 

当处理 人型程 序时，将我们的注意力集中在最耗时的部分变得很重要。代码剖祈程序和相关的 
工具能帮助我们系统地评价和改进程序性能。我们描述了 GPROF 

还有更加复杂完善的剖析程序 pj 用，例如 Ime] 的 VTUNE 稈序开发系统。这些工具可以在过程级分 
解执行时间，测最稈序每个基本块 (basic block) 的性能。基本块是没有条件操作的指令序列 □ 

Amdahl 定律提供了对通过只改迸系统部分所获得的性能收益的一个简单但是很冇力的看法。 
收益既依赖于我们对这个部分的提高稈度，也依赖于这个部分原来在整个时间中所办的 比例。 

参考文献说明 

有许多关 P 编译器优化技术的作品。 Muchnick 的著作被认为是最全面的 135] 

Crawford 的关于软件优化的著作[85】包含了一些我们己经谈到的内容，不过它还描述了在并行机器 
上获得岛性能的过枵。 

我们对乱序处理器的操作的描述相当简单和抽象。可以在高级计算机体系结构教科书中找到对 
通用原则更完整的描述，例如 Hennessy 和 Patterson 的著作[33，第3章] 。 Shriver 和 Smith 给出了 


个标准的 Unix 剖析1:具。也 




t 


Wadleigh 和 
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AMD 处理器的详细描述[69】， AMD 处理器与我们描述的处理器有相似之处。 

大多数关十计箅机体系结构的书都讲述了 Amdah〗 定律。 Hennessy 和 Patterson 的著作[33】主要 
关心的是1化的系统评价，并提供 f 对这个主题相当好的讲解。 


家庭作业 

5+11 ♦♦ 

假设我们想编写-个计算两个向量内积的过程。这个函数的…个抽象版本对整数和浮点数据都 
冇 CPE54, 通过进行与我们将抽象 wmbind 变换为更有效的 combi ne 4 相同类型的变换，我们得到 
如 K 代码： 


Accumulate in temporary 

void inner4(vec_ptr 


vec_ptr v, data_t *dest) 


u 


mL 


int length = 

data_t *udata 

data_t *vdata 
data t 


_length(u )i 

get_vec_start ■: u); 

get_vec_startlv); 
(data_t) 0; 


vec 






sum 


1(〕 


for (i 


0 ； i < length? i ++)[ 

udata[i] 




11 


vdata[i! 


sum 


sun + 


12 


dest 


13 


sum; 


14 


我们的测试 显小对 f 整数数据，这个函数每次迭代需要 3」1 个周期。 K 中循环的汇编代码如下 


所 W 


udata in %esi f vdata in %ebx r i in %edx, sum in %efx, length in %edi 

loop: 


2 


movl (%eyi, iedx, 4},%eax 

(%ebx, %edx f 4) f %eax 

addl %eax；%ecx 

incl %edx 
cmpl %edi, 毛 edx 

jl .L24 


Get udaial i } 

Multiply hy vdm^lif 

Add 10 sum 


i++ 


Compare i:length 

if <, goto loop 


假设整数乘法是由通用 i 数功能单元执行的，而这个申兀是流水线化的。这蒽味着在一个乘法 
开始之 后-个 周期* - 个新的幣数操作〔乘法或其他操作）就能开始了。还假设整数/分立功能单元 
能执行简单的整数操作。 

A, 给出这些汇编代码行到操作序列的翻译。 rmwl 指令翻译成一条 bad 操作 6 寄存器 ％eax 在循 
环中被更新两次。用标号 K 分不同版本 

B, 解释函数怎么能比整数乘法需要的周期数运行得还快。 

C, 解释是什么因素限制了这段代码的 CPE 最好也只能为2.5。 

D, 对于浮点数据，我们得到的 CPE 为3+5。不耑要检舎汇编代码，描述将性能限制在最 奵情况 
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为每次迭代3个周期的一>因素。 


5.12 


编写习题 5J1 中描述的一个版本的内积过程，使用四次循环展开。 

我们对这个过程的测试得到对整数数据 CPE 为2.20,而对浮点数据 CPE 为3.50。 
A. 解释为什么任何版本的内积过程都不能达到比2更大的 CPE 了。 

B+ 解释为什么对浮点数的性能不能通过循环展开而得到提高。 


5.13 


编写习匙 5.11 中描述的一个版本的内积过稈，使用网次循环展开和两路并行。 

我们对这个过程的测试得到对浮点数的 CPE 为2.25。描述将性能限制在最好 CPE 为 2.0 的两个 


因素 


5.14 ♦♦ 

你刚刚加入一个编程小组，他们试图开发世界上最快的阶乘函数。幵始时使用递归阶乘，他们 
格代码转换成使用迭代： 


int fact{int n) 


mt l ； 

ir.t result 


for (i = n; 


0; i — 
result = result * i; 


return result 


通过这样做，他们将凼数的 CPE 数从 63 降低到4,这是在 Intel Pentium HI 上测出的（真的！) 
不过.他们还想 HI 再好一点， 

其中一个程序员听说过循环展开，她写出 r 如卜 代码： 


int Eact_u2(int n) 


int result 
for (i = n 

result 


> D ； i-=2) ' 
{result * i) 


ti-1) 


return result 


不幸的是，小组发现这段代码对参数 《 的某些值返回0。 

A. 对于哪些/I 值， fact_u2 和 fact 会返回不同的值？ 

B. 给出如何修正 fact_u2。 注意，对于这个过程有个特殊的窍门，只要修改一个循环界限。 

C. 对 fact_u2 使用基准程序，显示性能没有改进 & 你会如何解释这个现象呢？ 
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D . 你将循环中的这行修改为 


result 


result 


(i 






iL 每个人惊奇的是，现在测出的性能冇 CPE 15。 你怎样解释这个件.能改进呢? 


5,15 


使用条■件传送指令，编写下列函数体的汇编代码: 


Return maximum of x and y */ 

int max(int x P ■nt y) 


return [x < y) ? y : x ； 


5 


5,16 ♦♦ 

使用条件传送，翻译如卜_形式的语句 


cond-expr ? then-expr : else-expr 


val 


的通用技术产卞 / 如 y 形式的代码 


val - then - expr ; 

Lcmp - elsc-cxpr; 

test 二 cond-expr; 

if (test) vai 


temp ； 


这甩最后 •行 是坩•个条件传送指令宋实现的 D 以练习题 5.7 为例，[■兑明这个觀评合法的通 ffl 


要求。 




5.17 


KlM 这个函数计算的是一个链表中元素 的和: 


irit L ;■ bL_sam(1 i 1 s) 


0； 


I nt sum 


4 


for [? ly : Is - Is -^ 

sum += ]s->data; 

return sum; 


next) 


循环的汇编代码相第，次迭代到操作的翮泽如 _卜_: 


汇编指令 


执行单元揭作 


. L 43 : 


dddl 4 (%edx} r 


mov L 4|%edx,0) 

addl t ^1,%eax.0 

load {%edx,0) 

test 1 %edx-1,%edx P 1 
jrie-taken 


%eaK.1 


novl [ %p.dx) r ^edx 
testl % edx , 

"we .L 4 J 


电 edx . 丄 


cr. 1 


cc - i 
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A . 按照图 5.31 的风格，画图说明循环头三次迭代的操作的调度。回想一下只有一个加载单元， 

B . 我们对这个函数的测试得到 CPE 为4.00。这与你在 A 部分中画出的图一致吗 


7 


5,18 




卜面 的闲数是问题 5.17 中所不的链表求和阈数的…个变种 


int 1 ist_suin2 ( 1 ist ： j>t.i Is) 


int sum = 0; 

old ； 


4 


while ( Is ) { 
old 二 Is; 

Is - ls->next; 
sum += old->dat*; 


9 


10 


II 


return sum 


12 


这段代码的编写方式，使得取 F —个链表兀素的存储器访问早于从当前元素取数据字段的存储 


器访问。 


循环的汇编代码和第一次迭代到操作的翻译如下 


汇 S 指令 


执行单元搡作 


.L4S: 

riovl %edx P %ecx 
novl (%edx),%edx 
addl 4(%ecx),%esx 


load { % edx.0) 
movl 4[%edx + 0) 
addl t.1 H %eax.0 

te&tl %edx + 1 H %edx.1 
"i.ne-taken cc .1 


%edx.i 


t . 1 


%eax + l 


te&tl %edx F %edx 


cc ■ 1 


L48 


]ne 


注意，寄存器传送操作 mcvl % edx , Secx 不需要用任何操作来实现。它的处理只要简单地将 
标记 edx ,0 与寄存 S % ecx 联系起来，这样一来， 后面 的指令 addl 4 (% ecx ) , %eax 就会被翻译成 
以 edx .0 作为它的源操作数。 

A . 按照图5,31的风格，画图说明循环头三次迭代的操作的调度。回想一卜只有 - 八加载单元。 

B . 我们对这个函数的测试得到 CPE 为 3.00, 这与你在 A 部分中 1® 出的图一致吗？ 

C . 这个的数比问题 5.17 中的函数怎样更好地利用了加载单元 


7 


5.19 


假设给了你一个任务，要提高一个由3个部分组成的程序的性能。部分 A 需要整个运行时间的 
20%,部分 B 需要30%,而部分 C 需要50%。你确定1000美元能将部分 B 的速度提高到10倍， 
也可以将部分 C 的速度提高到 1.5 倍。嗯种选择会使性能最大化？ 
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练习题答案 

练习® 5.1 答案 

这个问题说明了存储器别名的某些细微的影响 D 
正如下面加了注释的代码所示，结果会是将 xp 处的值设置为0: 

" 2x V 
/* 2x-2x = 0 */ 

xp - *xp; /* 0-0 = 0 V 

这个#例说明我们关 于程序 行为的岜觉往往会是错误的。我们自然地会认为 xp 和 yp 是不同的 
情况 t 却忽略了他们相等的可能性。错误通常湄自程序员没想到的情况。 


* 




★ 


XP 


xp 


xp 


+ 




2 


xp 


xp 


xp 


3 


-k 


xp 




练习既 5.2 答案 

这个问题说明了 CPE 和绝对性能之间的关系 D 可以用初等代数解决这个问题。我们发现对于 
<2,版本1最快。对于版本2最快，而对于版本3最快 D 


n 


练习题 5,3 答案 

这是个简单的练习，但是认识到一个 for 循环的四个语句（初始化、测试、更新和循环体）执行 
的次数是不同的很重要。 


代码 


square 


incr 


90 


90 


90 


90 


90 


90 


练习® 5.4 答案 

正如我们在第3章中发现的，从汇编代码到 C 代码的逆向工程提供了对编译过稈的有用见识。 
下面 K 代码给出了对于通用数据和通用合并操作的 形式： 


void combineSpxB(vec_ptr v, *dest) 


int length 
int limit 
data_t *data 
data t 


vec_length (vl ； 

ength - 3; 

get_vec_startlv) 








IDENT; 




5 C 




int l ； 


/* Combine 8 elements at a time */ 

1imit; i +=B)( 


10 


for (i = D ； i 


11 


x OPER data[0] 
OPER data[l] 

OPER data[2] 
OPER data[3] 
OPER data[4] 
OPER data[5] 


x 


12 


13 


14 


15 


16 
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17 


OPER data[6] 
OPER data[7] 


18 


19 


data 


8 ; 


20 


21 


22 


f* Finish any remaining elements */ 

for (; i < length ； i++) { 

=x OPER data[0]; 

data 十 +』■ 


23 


24 


x 


25 


26 


27 


*dest 


28 } 

我们亍写的指针代码通过计算指针的结束值，能够消除循环变 * 这又 是-个 训练有素的人 

常常能够看出那些被编译器忽略 r 的变换的不例。 

练习题 5.5 答案 

溢出的 （ spilled ) 值通常存储在本地栈帧中。因此，它们 相対于 ％ebp 的偏移为负。我们可以在 
汇编代码中第12行上看到这样一个引用。 

A. 变鼋 limit 被溢出到栈中。 

B. 它在相对于 ％ebp 偏移为 -8 处。 

C. 只有在确定是否会选择结束循环的 jl 指令时才会需要这个值。如果分支预测逻辑预测会选择 
分支，那么 卜 一次迭代就能在循环 测试完 成之前进行.因此，比较指令不是确定循环性能的关 键路径 
的一部分。此外， a 为这个变董不会在循环中被改变 t 所以把它放到栈中不需要任何额外的存储操作 

练习题 5.6 答案 

这个问题证明了程序中很小的改动是如何能够造成巨大的性能差异的，特别是在乱序执行的机 
器匕图 5.38 表承了函数针对每种结合的一次迭代的乘法操作的调度。每次迭代包括三个乘法，而 
每个乘法接收 r 的旧值（显示为 nO) 并计算一个新的值（显不为 rj)。 不过，如灰色虚线所示，关 
键路径 (critical path ), 也就是对 r 的连续更新之间的最小时间可以是〗2 (A1), 8 (A2 和 A 5) 或4 

(A 3 和 A4), 假设处理器达到最大的并行度， 那 么只有这个关键路径会限制 CPE 的理论值。 

这会得到卜面的表： 


版本 測置的 CPE 理论 CPE 


A1 


4.00 


12/3 = 400 


A2 


2.67 


S ^ = 167 


A 3 


1.6^ 


V 3 = L 33 


A4 


1.67 


V 3^ L 33 


AS 


167 


8^=167 


从这张表我们看出结合 Al ' A 2 和 A 5 达到了它们的理论最优值，而 A 2 和 A 3 每次迭代要花费 
5个周期，而不是理论上的最优值心 
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■nil 


A5 


imull 


mnull 


imull 


5.38 问题 5.6 中情况的乘法操作的调度 


灰色虚线表示限制变 t r 的连续更新之间时间的关键路衧 


练习题 5.7 答案 

这个问题证明了当使用条件传送时需要小心，它们要求对源操作数求值，甚至于在不使用这个 


值时 


这段代码总是间接引用 xp (汇编代码的第2行)。在叩为0的情况中，这会导致一个空指针引 




练习® 5.8 答案 

这个问题要求你分析个程序中潜在的 load-store 交互作用。 

A. 它会将每个元素 a[fl 设置为;+1，0<1<998- 

B. 它会将每个元素叩1设置为0， 0<*<999. 

C+ 在第二种情况中，一次迭代的加载取决于前次迭代存储的结果。因此，在连缋的迭代之间存 
写/读相关。 

D . 它会得到 CPE5.00, 因为存储和后续的加载之间没有相关。 


练习题5,9答案 

这个问题说明了 Amdahl 定律不仅仅只适用于计算机系统。 

A. 按照等式5.1，我们有 #0.6 和 Jt=1.5。 更 fH 观地说，穿过 Montana 行驶1500公审.需要10 
个小时，而剩下的行程也需要]0个小时。这会得到增速 25/(10+10)=1 +25。 

B, 按照等式5.1，我们有 a=0.6* 巾我们需要5=5/3,根据这些我们可以解出I更直观地说， 
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为了使行程加速5/3,我们必须将整个时间降低到15个小时 & Montana 之外的部分仍然需要10个小 
时，所以我们必须在5个小时内通过 Montana 这要求行驶速度为每小时300公里 f 对 f 卡车来说 
实在是太快了 1 


练习題 5.10 答案 

通过一些示例是埋解 Amdahl 定律的最好方法。这个例子要求你从-•个不同寻常的角度来看等 


式 5.1 


问题是这个等式的一个简申应用。给定5 = 2和 a = a 8, 而你必须解出 i : 


2 = 


( l -0.8) + 0.8 /Jc 


0.4 + 1.6 /fc = 1.0 

k = 2.67 


386 
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M 存埯技术 

6.2 局部性 

6.3 存储器层次结构 

S 4 高速缓存存储器 

6.5 铒写高速*存友好的代码 

6. 6 综台 2 ft 速缓 存河程 序性能的影_ 

U 铢合=利 用樫序 中的局 fil ! r 性 

6.6 小链 
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4 


410 


41 


«0 


435 


446 
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到 H 前为 lL, 在我们对系统的研究中，我们依赖十•个简单的计算机系统模型， CPU 执行指令， 
而存储器 (memory) 系统为 CPU 存放指令和数据。在我们简单的礎型中，存储器系统是个线性 
的字 W 数组，而 CPU 能够在个常数时间内 iii 问每个 存储器 位冒，虽然迄今为止这都是个有效的 

模型，但是它没有反映现代系统实际作的方式。 

实际上， 存储器系统 （memory system ) 是一个具有不冋容量、成本和 i 力 W 时间 的存储 Cstorage ) 

设备的层次结构。。?。寄存器保存着最常用的数据。靠近 CPU 的小的、快速的高 速缓存存储器 (cache 

memory) 咋为 存储 (stored) 在相对慢速的疗储器 (mainmemory >简称主 #) 中数据和指令 f 集 

的缓冲区域。主#暂时存放存储在较大的慢速磁盘上的数据，而这些磁盘常常又作为存储在通过网 

络连抟的其他机器的磁盘或磁带上的数据的缓冲区域 。 

存储器 M 次结构是吋行的，这是因为与卜 个 更低层次的存储设各相比来说， 一 个编写良好的 
程序倾向丁更频繁地访问某一个层次上的存储 S 备。所以， F —层的存储设备 n ] 以更慢速一点 f 也 
因此更大，每个位更便 S, 整体效罘是•个大的存储器池，其成本与层次结构底层最便贷的存储设 
备相当，但是却以接近于层次结构项部4储设备的卨速率向程序提供数据。 

作为一个程序员，你需要理解存储器层次结构，因为它对你应用程字的性能有着 ti 大的影响。 
如果你的程序需要的数据是存储在 CPU 寄存器中的 t 那么在执行期间，在零个周期内就能 W 问到它 
们。如果存储在高速缓疗中，需 要〗〜 10个周期 。 如果存储在主存中，需要50 〜 100个周期。而如 
果存储在磁盘 h 志要大约 20000 000 个周期！ 

这电就是计算机系统中一个棊本而持久的思想：如果你理解了系统是如何将数据4存储器层次 
结构中上|.下下移动的，那么你吋 y 编写你的应用程序，使得它 扪的数 据项#储在层次结构中较高 
的地方，在那电 CPU 能吏快地访问到它们。 

这个思想围绕着计算机程序的个称为局部性 (locality) 的基本属性。具冇良奵鸠部性的程序 

傾向于-次又 | 次地访 问相 NI 的数据项集合，或是倾向于访问邻近的数据项集合。 Jt . 有&好周部性 

的程序比局部性差的程序更多地倾向于从存储器层次结构中较高层次处访问数据项，冈此运行得更 

快。例如，不同的矩阵乘法核心程序执行相 R 数量的算术操作，何适有小同程度的局部性.它们的 
运行时间町以相差 6 倍！ 

在本章中，我们会看看每本的存储技术—— SRAM 存储器、 DRAM 存储器， ROM 存储器和磁 
盘——并描述它们是如何被组织成 S 次结构的。特别地，我们将拄意力集中在 cpu 和 i# 之间作 
为缓存域的岛速缓存疗储器上，因为它们对应用稈序性能的影响最大。我们向你 展小如 何分析 
你的 C 程序的局部性，而且我们还介绍改进你的程序中 w 部性的技术 . 你还会学到一种描绘某台 
机器卜存储器层次结构的性能 W 有趣方法，称为“#储器山 ( memorymountain 它给出的读访 
问次数是局部性的个函数。 
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访问存储器。最早的 IBM PC 甚至于没有硬盘。1982年引入的 IBMPC-XT 有 10M 字 U 的磁盘，到 
2000年，主流机器己冇1000倍十 PC-XT 的磁盘存储器 T 而且这个比率会以每两年或--年10倍的 
速度增长。 
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号 W 译成系汍总线倍鍔. 梢后抟递 M 系统总熳 , fePIS *.7 (hk AH ETPL : 瞻 t 列 1 味总线上的 ft 

r . fkm Litas - 并将 《 t ■铐 nil 寄存暑 ta . m^ (t\ 


桥後 as 将賭！ ft 总线 a 


m 


±# 


mm 


miHftiii% EKJJ#UilA 钱 


齊 # ft 文， 




(« itttti . fts «_ ftHft*Lt 


#fr« 文 ft 


u 




£ff 


_B 


A 岈檯 j 


(c^CW^eakiih? I . ff 杆它押 中 


n， 加理椽 ftmoviA ^ 
相反地. 3 CPU 执行一个 fr 储 撵作时 


的存储鼉澳事务 


4 


movl %eax , k 


这 i, t# 器哥 ™ 的内荇被写到地址 a . a-u Rtf, 有三个學 ▲步皤 * 白■先 fe 

CPU 将 J!Wt 放到系统总线上-存储 SM 主#岛线攸出地 Jlh 丼等待数 据到达 n 如闯 fi.S < t \ 接下 
来 r cpu 冉采 ™ 中的 ft 据字轩贝翎系铳 6a 
然扇再将达些位存鏞到 CHtAM 中■抝9 AlB (必) 




te(bh 最后, 














UJ CPU# 亀 M AJftH 序 11_ 总蟪 . 井辱 ttJWY 


_#!» 交 tt 


ALU 


一 y 


vow ^ 


y 






tfi 






A.8 存耷 I* 作 rrravl %egx s A 的存埔器写學务 


6-1,2 进盘存 W 

瞄盘足广为 R 用的保佯大_ » »的存«!谀备，存 *» 数据的玫歎级可以达珥几 fff JIU 千光字节_ 

而»于 RAM 的存坫檯只晚点 几 1戎几干兆 TU fc 不过， 从磁 41:读估息 f ® 几 S #. LH 从 DRAM 
BEttT Ifl 万倍， [i 从 SRAM ft 慢了 JM 万俯， 

mm 

礓 Sftrtl&lt ( pl _> 构成的，每个 S 片禽两 lfi f | L * tsurfa ^) tfif 嗡牲 id 濟材料 ■ &片 
中问嵙一个可以_1转的主柚 （_« DeK 记使捋鱼片以 III 定的旋耖直伞 （ roiatiMBlr 咖 J 通常 

ii 5 4 M ^ lSrtl 0 ftl a M tre^Mion per minmr , *t 每分 fr i . 礁盘 it 隶乜含一个哎 £ 个这裨 fWft 片. 
E 粘在一个密封的锌«内_ 

■ W tt ) 職承了一个离 I 的瓤撇 表饰的每+表面蕞曲 一 磁壤 iMKk'i 的两心 ■ 











K 料睡 

-个嫌盘 1:. 战醜灿⑽ S 抓醜找 f , 辦雜姑 f . ■ ㈣ 以 K 技 

术决定的』 


li! 设韦 t tmcmtiuBdc^ny) (itf^Yh «i| •■ 英 f 的段中吋 以放入 的位 
ittietjftClrack tosiij-H 鳳壤寸 >r 从在〗 1 中心出堆半柃为 一 萸寸的段内可以有的讎纖 ft 

h«ldcDsinO <_方英畎 >■ E 缺 ■度与 磁道衝度的乘 f !_ 

战盘训造两不懈地电力以增加女柬度 <从而_加有》) 


# 


■ 嬝扨的紐 

也賊_龍醐样代投_>将旬个 ㈣ 分为眺_醜 区. 扇晒是⑽班咖 

ki 录时决定的_为了保持 S 个磁 遂有间 定 的相民 数， 越礼 外时皤逍_区_得越汗 

靴麵細候， 这种 方法 fi 合瑾，不过， R 6 特醜燦瞄商 ， ■『imm 

极) * 得小树接收 的大了 ■ 睹故，现代大 fttSB # 使 f {] 一种捽为# 区记求 

刑 J 4 本，仵这种枝 术中， 磴坩 ffrR 分成了不相 i 的/■使迮 
包含，■组选续的磁咁 




■» 


相区之 n 的间隙 

B multiple 


idi gJ 


/Li 


称为 ^*a ( 

. ■个区中的每个磁 ittfflfr 相 mmm r 这个场 k 的数 t & 出该 k 中娱甩叫 

Ki 咖舰含 的軌务儀賴■住康，软盘砸#艺式贿法， 每个 fiai ㈣ 聰教是常& 

下面 w 公式给 w r — 个鐵盘的 s .1：., 


nnliing £sOM} m 毎个 K 


I 


# w « 


帽 If # 咖町 


Dhk 


^n 


# M piat^fi 

pfdlfjtfr K disk 


鋅 Jrtidb 


X 


^ « 盘构遼 


磁涅別逋 ffllii 黹用本讲 ti * ( eylLndwJ 来描述多个 fl 片呀砧 S 的构 ■迨. 


^ 唞， ttW 达所由■盘片 

巾姑刪 觀触合，例 如 , in »- 个赖《有三个金肿,六个困、每个 m 
上的曲 itt 刑编砰师趄一致的 ■ SF 么株 [ tu 就是 A 个逊暹 i 的繼合 4 


u ] -tattmis 


•ti s 肀置片 BftiH 


m 




mm \ , 枉毎 个磁遒績划分 为一组 
H 这种数 S 编肖在 ftl 上的磁性««中. 
mMk , 间哚办储 闲! fe + f 哄増区的协式化位 

_象坫1<1 -个成多个帮敢在一 is 的* yia 成的， 它 呔在一个密射的包 * ii a 匍团 w < h > 

整个％ ttifiwrt 称为 "fli 盘 te 对 S { diuk drive 〉 I 


: lor h 每个敁 K 铒食相等效 t 的灶_桥 [iffl 黹兑 512 卞 

R 之 ㈣ 由一些间醵 (gap) 分隔开 _ 这些间 K 中不 # 


A 


M 然我 iNii 常妃称为隹盘 < dUk ) 


I 


f\ US 雇次 tiM 


m 






: _』 


i：- 




wp 


Ij 抑 s 


IJEkK 0 


^ M 


/ 


身 


$ 


/ 

/_ 


i 
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_■ «设我们 有一个磁金 > ffS 个 盘片. 毎个場区 M 3 寧 f . 每个 I 300 M 条籲道,毎条 It 

iftf iinm 个蝴阪,那么 iifsia 的郛 iii = 


■ 

seef&r 


20000jMi^ 2 JBIF^PI S phnrrx 


£Mt 


Kill 


m ： k 奶 

track 

« 3 tt 72000 fl 000 frvto 

■ 

= ㈣ GB 

注 I . 制 ifiiS 是以 f 兆为平位來农达 4( ja 荇 _ 的.这宇 V /, 


™x 


JA 


mrfact 


不幸地 • 漳 Krklk ) 


3 和 G 〖*^»这样的甫蟪的+义銥《1于上下文,.对于％ EJRAM 和 

=饩= 6 _ 于与靠 _盘和 ，林这畀 《 KJ 紗赛糞相 

A 0 ■ Iti 1 . 速 #如參处 量 《t 也使 


£ 


9 


bt 


SKAM* ： ~t 相关的单 fi, 通常 K=2 

AtK - id 1 


Z 


幸连时千 A 们遍 ttiLM 的錡蠡 ElKk~«(^«iv«l^e» 枯计隹 i Jt 处是崢成实陣 + 心; 工竹 
坏推倒如.户 

千 0*1073 741 B 2 J 4 frltf=i 


S7& 和 1 护 ■! 


秦《&地，叶 

\Wk ( I 10 - \ify ICf ，7 fci 


1 


M'y 




=, 


m 


练匁鼈 6.2 

计 Ait # —个礓產的容 t , tn 个 ft 片 > 10 000个拉*,每条 4 fti |：+ 均有舶 0 个 Ifm ， 而每 
个扇 B 有512宇芊， 

_盘用達擄利- 个舞动 臂<» 

■ 如 阄 h.ift Ld 所承， i 过枏着半 s _ tt 动这个传动1 动 ft 可以将读 / 写央定位在 itifil L 

的 fl 伺纖上。这样的机柚运动称为4遒 E ^ k )* 一!1读/写失定佾到 TWM 的_遛七. 

道 t : 的_个 p . a 过它 _ h _ 曲时.说与1^1以到达 t 位的 m mm ), 也 可以修 ttii 个位的愤 

有多个 it 片的 ffiatt 对毎个坩®邱奸一个独立的头 

头#直树列，_»仃功 * f : 仟坷时 it 嘢有的游巧头《位■: Fra —个枓曲上 


) 的读/ 1 巧头 ■tpcndfwritff hcud ) 窠 t 写 frfiH 在迪忭 | f _ 


anu 




fcMMb ) 所私抑 


钃 ft 灰电以 U 电 

BjaiWiS ^ HK - / 


wftrtir 的 
+_■ 在《置*办 上一 
w_<b 气 # 1 th 


ttanqw 

仟邮道 g . 


h > — 


fb) s 七 hh 的 hjfl 


蜮 fi 的劻 态持性 
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在传动臂末端的读头在磁盘表面高度大约 0 J 微米处的一层薄薄的气垫上飞翔.速度大约为 
80 km / h 。 在这样小的间隙里，盘面上一粒微小的灰尘都像一块 S 石。如果读/写头碰到了这样的一块巨 
石，读/写头会停下来，撞到盘面——所谓的读/写头冲撞 （ headcrash )。 为此，磁盘总是密封包装的 & 

磁盘以扇区大小的块来读写数据。对扇区的访问时间 （ acce % time ) 有三个主要的部分：寻道 

时间 （seek time ) 、旋转时间 （rotational latency ) 和传送时间 （transfer time )： 

• 寻道时间，为了读取某个目标扇区的内容，传动臂貧先将读/写头定位到包含@标扇区的磁 

道上，移动传动臂所需的时间称为寻道时间。寻道时间依赖于传动臂以前的位置和传 
动臂在盘面上移动的速度，现代驱动器中平均寻道时间7^,#是通过对几千次对随机扇区 
的寻道求平均值来测里的，通常为6〜 9 ms 。 一次寻道的最大时间以髙达 20 ms 。 

• 旋转时间：一旦读/写头定位到 r 期望的磁道 ， 驱动器等待 R 标扇区的第一个位旋转到读/ 
写头这个步骒的性能依赖丁当读/写头到达3标扇区时盘面的 位置， 和磁盘的旋转速度。 
在最坏的情况下，读/写头刚刚错过了0标扇区 * 必须等待磁盘转整圈。因此 t 最大旋转 
时间.以秒为单位，是 


t/Osecs 


roiatv>n 


RPM 1 min 


平均旋转时间的一半 □ 

传送时间：当目标扇区的第一个位位于读/写头下时，驱动器就可以开始读或者写该扇区的 
内容一个扇区的传送时间依赖于旋转速度和每条磁道的扇区数 R 。 因此，我们可以粗 
略地估汁一个扇 区以秒 为单位的平均传送时间如下 


secs 


avg transfer 


RPM (average # sectors/track ) l min 


我们可以估计访问一个磁盘扇区内容的平均时间为平均寻道时间、平均旋转时间和平均传送时 
间的和。例如， 考虑一个有如下参数的磁盘 •+ 




「1 


旋转速率 


7 2O0RPM 


ihIc 


每条磁道的平均扇区数 


400 


对于这个磁盘，平均旋转时间（以1^为笮位）是 


^avg rotation = 1/2x7^ 


rotation 


=1/2 X (60 secs/1200 RPM ) x 1000 ms/sec 


平均传送时间是 


- 60/7200 RPMx 1/400 sectors/tmck X1000 msfsec 

- 0.02 


&vg trmsfer 


> 


总之，整个估计的访问时间是 


TflPTdSf ~ art + 

= 9 m t 40.{ H^t 

=HAS 


+ T 


你 r 


w 


mi 


这个 WT 說明 r 一 INk * [咨 的闷 BU 

* 访网一个 3 i 2 宇体的时间1:愛是#道对间坧旋时 [ KL 访问拗沉中的逍-个？: 

节闱: r 很长时 w _ 挺 趕剩 f 的宇节儿 f 凊用 w 问， 

* 因为4道时问_迨«时问太败相释的_听以将#迫时间染2 IteihiiS 防问时向的闻栌％ 

合理的方痤^ 

• 对存储也 3 RAM 中16累乎的访 H«M 大 ft 是相*,对 DRAM 的访《 时尚悬 COM . H 此,从 

#姑1中谁-个5〗2宇节《区人小的块的时阄时511八1^來说太时 T > BAM 來说 

大约 it 4 rt ¥ ln 〜 进涅访句时间 t 大约 tflmd 比 SKAM 太约大 
25即倚，如轚执们比较达 抑一个 V 肀跗时这 f 访问时吋的垃別会 E 大 

嫌习通6 ^ 

姑卄诗 W 下*达今堪盘上 一 个 Jfeg 的访问时肉 t 以办单位知 


i ttDRAM k¥^k 


狀 _ Xilr ;. 


n 


mm 


is 


m^z 


7#ri rfAl 


Hms 


v 条 _ 坩 m 平均 《 ib；Kr 


逻拊 8 齟块 

■ K 如我们#到的即样， Wftilit 构埯 M 杂. 有起 fSi «_ 2唼 tifif . L 有不冋的圮录 |> i , 

作 系统隐 ■这样的复杂牲.现代 teS 将它 《 T | 的构洧间化为^个 h 个班 <太小的運辑崦的卞列，$ 

号为 M .- 上 - L 班盘中寶^个小的■件/固件设备,称为 IB 螽轅制 》■ 嫌炉着遷《|块分和赛际 （物 

理）磁迓崩区之 ㈣ 的_射尤 g . 

当挟作系找 钯掛执 汀一个1/0味作时， _Wii —个僅盘螭 K 的欧抵 S 主存. 推伟 H 统会发|*一 

个#令剀阪 1 15制氣 it 它读某个块号 * 控«_上的 a # HMf — 个快速雀 in .将-个 ii 埘块 

号_铎味-个 mig r 痴 2 ) 的 . m , 这个三兀咁惟，地#现了对应的树控制荨 

上的哦件* F 蚱这个二元姐， HKI 头移动刻緣当的柱面 ■ 等咚由 K 移动到 W 3 头 F , _ 10头嫌知 
到約 {? 放妇痄 制_1：的一个区屮，然帱它 ( ni ¥ Ef!K t # ■中， 

旁泫= 板 式化的礓盘容1 

: 存昝敏 择之嘗，玄必 M 被《芈44剌5格式化.边识扇区的仃4*珥扇 a 之 W 妁 
m *. 杯 ftdi 表*有收障的柱*并 I 不 it 風 ^ik 在每 latnint — 紐权*作 Aim . 如 

»个柱*在遞 歲使 圯过粗中稣 # T h 就 1 sa # 在着达聲 备冉的 牲*,所以 磁 
A 耆1 进柬所说的樁夂化容訾比最大客 **+. 

Mlft 

■Utl H 1 ; t ■■培 ft IS 如』.、进 it ! 和鼷金达 ft 时故 ft fflJ 位 jj il 喊如 laltI f ' K_ r llirijjtiirrf ] Cympinffit 
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1咖|^_ w i ，线迹接判 cpu 和主存的 


^ . WHT , ，― 叫系统总线和存姑器总线 

不啡匕 if j M cpm 細 >Uc m 这馳 i _ 线盼朗卽咖 尤关 ■ _ r pctn 

主 fr 和 i/q m. 


^ 广一个 與单的 IW 总线結构 （以 PO 为横 AS 夂它 i | 


*ji 


7 CPU, 


CPU 


祀办 asrft 


ALU 


，埯 e 域 




Hu 




frSi 


in> ㈣ 


什鸢 

SiBUffBUfe 


u^fiws 




kh 


AhM 




l 11 的 6 域结 ftu 它连陡 CPU- ± 存和 I/C3 设备 

摘 lrt > 总浅比 统 fi 线和# fijffl 总线慣 t 11 赵它可 yww 神类*多的笫 j 方 
生_^11 中， 打三个 不同费牮的投备 iJjHH 总 ( ft , 

* L'SB (Universal Swial Buv, 

的 # 吐辛可 以达到 EjMbit/i 


m 


M * 行总 fU 制難-个样设錢接到口 H MM ■咖 
* 崆为博速或+蟪串备设 计的 .# 制 * *r 

CD-ROM M US WftlttU 


m , 敝_木 ■鐡杆 

■ 關帝 ：成述 fcU 包俾 tt 件 《 r 软件逐辑.它鐘赋在 CRI 在轉 B t 晒表 

• 设雌 Mte ■ ㈣ 钟和软件賴，它们用来代# CPU H 写贿鮮 
it 他的设 S , 例如颼略 ititaL 

狐 ■ 这垫抽提供了到总残釣 A 搀电路迕 K . 

里終评细捕迸 i^i 

我 ffjwj ■以 te 诼 - t 尚 里:的 捐述 

CPU 使用一种称 A ) 存馇81唤射 I/O 

^12 <»>所示.在铨用 存略雄 _* |/0的系嫌中 

(W* 神今这祥的地址称为一个 I/O 


a J 以通过将适 ftifll 摘八 刊主板上空的扩展特中 


^mmnyo 


料脉何 I ㈣ ⑽刪 舰 ㈣㈣ ft . mrmimmn 


是 




I , 阄 & 1 2 总抽了当 m ] 从破 ft 读軚据射发生的步猓 

cy - niappKlM )) 肘技术叱叫 K > 祖备发射命令 h 

设芾迎 仿保 IT 

11 ( I/O pcfl >， 当， ■个诶 Shift 爾总找 时_ 它每一个味多个端 


-li> 


QJI 


地址空间中有一块电比 ft 为与 











402 


口相关联 C 成它 K 映射1十齡个癩口) 


CPU 芯 ft 


WiBt 料 


ALU 


««»u 




l ： 卿 _« 


ims 






a «* 


■_■ R 


m 


㈤ QUiB ; _#*■ IBJft i * El ^ 1-■ H !9 #« SH IrftHt. -^ItftUr 


CPU 祝 V 


ft«wn 


I * 狀 


USB 柃 biB 




mmn 


! A«tt 


m 


^aK4ittlt«Kr 捧执的⑽力阼嫌： 











存 eta 屜我坫街 
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CPU 狀 


Iff Biff 


中_ 


棘拽口 


lilTf 


m 


usji 


R 形 1&M!SE 


■盘构叱 9 


m 






Ic> IBMAR^Ssl. 瑾 ft 控鼈 B 以一 + 4 Bjl 知 CPU 

iJ ^2 囅 一个 l « S*E 

怍为 - t 向咿的例子.胺 Pfi 后， CW 可能个约地 
«10^的存《斯令，发运磁伢读 ： 第一条指令是 t 这-个命令 T , 它 t 诉鼈盘发起一个读，松发送 

了讳 怡的# 数 P 到如3谪克嫫时> ftW 中断 CPU can 分在 II 甘中 対论中鹰>.第：条报令描明应 

皂读的逻_块兮■第 =- 条柞令 ffi 明应涑存随撇敌 ft 区内容的主存地址， 

,y j cpu mjmtm , 在磁&执行读的时親，它通常会做些其他的 x 作.回想一 一个 
IGHa ^ itPB 篇时 钟麵 明为 L _ 在用氧读碰轰的 IWiWNm . 它着 4 地可能执行 1 M 0 万条指令* 
&传 * 迸#时，只 1 简嘛地等待，仆么 《 1 不 ft , 5 ： - ft 极太的浪费_ 

作 BS 盘控制器收网宋自 CPU 的 I ® 命令之后，它柙逻_块号 Mil ： 成-个扇14扯.咦该扇 g 的内 
然后将坨些内容裒推传送刘±#>不霱赛 CPU 的 干涉， 

ft 行读通写总线取务 ■ 而不箝费 CPU 干涉的过保 + 称为 DMA (dims 
S 访 fm 这种数赛传送称为 DMA H i4 (DMA transfer) . 

ItDMA^ii^fSr 进迓扇区的内祚袖安 t 地 #(|^:± 存中以后，进 S«MSI 过铪 CPUS)* 
一个中 Iffi 馆号寒 ii&CPU 

i 〒 WJ ：， 这会辱 ft CWj 柙停它当府讯在做的工作. ttW 到一个拽作系铁 FAR , 这个祕 ft 会 ki 承下 

已经完成.然后将晈制返 回费 CPU 被中妬的地方 * 

施 一个曲用雄•时 3( 析 
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.1.3 存储技术趋势 

从我们对存储技术的讨论中，可以总结出几个很重要的思想： 

不同的存储技术有不同的价格和性能折中。 SRAM 比 DRAM 快一点，而 DRAM 比磁盘要 

快很多。另一方面，快速存储总是比慢速存储要贵的。 SRAM 每字节的造价比 DRAM 高， 
DRAM 的造 价叉比 磁盘高得多。 

不同存姥技术的价格和性能属性以截然不同的速率变化着。图 6.15 总结了从1980年以來的 
存储技术的价格和性能属性，最早的 PC 是那一年提出的，这些数字是从以莳的贸易杂志中 
挑选出来的。虽然它们是从非正式的调查中得到的，但是这些数字还是能掲小出•些有趣 
的趋势的。 




自从1980年以来， SRAM 技木的成本和性能基本上是以相同的速度改善的 a 访问时 
间下降厂大约100倍，而每兆字行的成本下降了 200倍，如图 6.15(a) 所小。不过， DRAM 
和磁盘的变化更大，而 il 不〃致。 DRAM 每兆字节的成本下降了 8000倍所小几乎是四个 
数量级)，而 DRAM 的访问时间只 F 降了大约5倍，如图 6J5 (b) 所示。磁盘技术有和 
DRAM 相同的趋势 f 其至孓变化更大。从1980年以来，磁盘存储的每兆字节成本增长了 
50 000倍，访问时间改善得很少，只有10倍左右，如图 6J5 (c ) 所示 6 这些惊人的长期 
趋势突出了存储器和磁盘技术的一个基本 事实： 增加密度（从而降低成本）比降低访问时 
间更容易， 

DRAM 和磁盘访问时同滯后于 CPU 时钟周期时间 . £如我们在图 6.15(d) 中肴到的那样, 
从1980年到2000年， CPU 时钟周期提髙了 600倍。相比于 CPU 性能， SRAM 的性能是稍 
差的，域管 SRAM 的性能在保持增长。然而， DRAM 和磁盘性能与 CPU 性能之间的差距 
实际上是加大许多 D 图 6.16 清楚地表面了各种趋势，以半对数为标度 （semi-log scale)， 画 
出了图6,15中的访问时间和时钟周期。 
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(a) SRAM 趋势 
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<b) DRAM 趋势 
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(c ) 进盘趋势 
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6.15 存储和处理器技术发展趋势 
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6-16 DRAM 、 磁盘和 CPU 速度之间逐渐增大的差距 

正如我们将在 6 . 4 卄中看到的那样，现代计算机频繁地使用基于 SRAM 的高速缓存，以你补处 
理器-存储器之间的差距。这种方法行之有效是因为应用程序的一个称为局部性 ( locality ) 的基本 
属性_接 卜来我 们就讨论这个问题。 


6.2 局部性 

一个编写良好的讦算机程序倾句子 M 示出良好的局部性 （ localUy )。 也就是 t 它们倾向于引用 

的数据项邻近于其他最近引用过的数据项，或者邻近 r 最近&我引用过的数据项。这种倾向性， 

被称为局部性原理 （ principleoflocality ), 是一个持久的概念，对硬件和软件系统的设计都有着极 
人的影响。 

品部性通常有叫种形式：时间局部性 (temporal locality ) 和空间局部性 （spatial localityX 在一 

个具钉&好时间局部性的程序屮，被引用过一次的存储器位賈很可能在不远的将来冉被多次引用， 
在一个具有良好宁间局部性的稃序 m ， 如果一个存储器位置被引用了次，那么程序很可能在不远 
的将来⑴用附近的■个存储器位置。 

程序员应该理解局部性原理 t 因为一般而言，有良好局部性的程序比局部性差的租序运行得 
更快。现代计算机系统的各个层次，从硬件到操作系统、到应用程序，它们的设汁都利用了局部 
性。迮硬件层， ） 4 部性原理允邝计算机设计者通过引入称为高速缓存存樯器的小而快速的#储器 
来保存最近被 d 用的指令和数据项，从而提高对主存的访问速度 a 在操作系统级，局部性原理允 
许系统使用主存作为虚拟地址空间最近被引用块的高速缓存类似地，操作系统用主#来缓存磁 
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盘文件系统中最近被使用的磁盘块。局部性原理在应用程序的设计中也扮演着重要的角色。例如， 
Web 浏览器将最近被引用的文档放在本地磁盘上，利用的就是时间局部性。大量的 Web 服务器将 
最近被请求的文档放在前端磁盘高速缓存中，这些缓存能满足对这些文裆的请求，而不需要服务 
器的任何卜涉。 


6.2.1 对程序数据引用的局部性 

考虑图 6.17 ( a ) 中的简单函数，它对一个向量的所有元素求和。这个程序有良好的局部性吗？ 
为了回答这个问题，我们来看看每个变量的引用模式。在这个例子中，变暈 sum 在每次循环迭代中 
被引用一次，因此，对于 smn 来说，有好的局部性。另一方面，因为 sum 是 标量， 对于 SLiiri 来说， 
没有空间局部性. 

正如我们在图 6.17 ( b ) 中看到的，向量 v 的元素是被顺序读取的，一个接一个，按照它们存 
储在存储器中的顺序（为了方便 f 我们假设数组是从地址0开始的 ） a 因此，对于变量 V ，函数冇很 
好的空间局部性，但是时间局部性很差，因为每个向量元素只被访问一次。因为对于循环体中的每 
个变量，这个函数要么有好的空间局部性，要么有好的时间局部性，所以我们可以断定 sumvec ^ 
数有良好的局部性。 


int suur.veclint v[H]} 


int i , sum 


4 


5 


for {i - 0; a < Ni; i + + ) 

v [ i ]; 


sum += 

return sum ； 


(a) 


mammMwmwmmmmm^i 


地址内容 


访问限序 


(b) 


图6」7 (0) 一 个具有良好局部性的 程序； （ b ) 向 tv 的引用模式 (N = 8) 

注意如 W 按照向1元素存储在存储器中的顺序来访问它们> 

这样顺序访问-个向量每个元素的函数，具有步长为1的引用樸式 Cstride 1 
reference pattern ) (相对于元素的大小 h 访问一个连续的向量的每第 k 个元素，就被称为步长为 k 
的引月模式 Cstride-k reference pattern ) ,步长为1的引用模式是程序中空间局部性常见和重要的来 
源。 一般而言，随着步长的增加，空间局部性 T 降。 

对 T 引用多维数组的程序来说，步长也是一个很重要的问题。考虑图 6+18 (a) 中的函数 

它对二维数组的元素求和。双重循环桉 照行优先顺序 （ row - rmjoronkr ) 读数组 
的元素。也就是，内层循环读第一行的元素，依此类推。函数 sirniarrayrows 具有良好的空间局部性， 
因为它按照数组被存储的行优先顺序来访问这个数组，如图 6.18 ( b ) 所示 & 其结杲是得到一个很 


我们说像 


sumvec 


sum array rows 
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好的歩 K： 为 i 的引用模忒和良好的空间局部性。 


int yumarrayrows(int a [ K ] [ N ]) 


int i , j ； 


3; 


tsurr 


4 


0 ； i < M ; i ++) 

0 ; j < H ; j 十十) 

a [ i ] [ j ]; 


for (i = 

Ear (j 




sam +- 

return sum ； 
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20 
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^2 
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访问哏序 


■: b ) 


6.18 (a) 另一个具有良好局部性的程序； （ b ) 数组 a 的引用模式 （M = 2, N = 3) 

右 ft 好的空阆 m 部性> 是因为数组是按照与它存储4存锗器屮-样 的行优先顺 序来被 i 方问的。 

一些項上 i 很小的对程序的改动能够对它的局部性有很大的影响。例如，图 ( a ) 中的函数 

sumarraycols i \ 算和图 6*18 (a) 中函数 sumtinayrows —样的结果 s 惟的 [K 别是我们交换 f i 和 j 

的循环 . 这样交换循环对它的局部性有何影响？ 

糟糕的宁间局部性损害/函数 sumarraycols , 因为它按照列来扫描数组，而不是按照行。因为 C 
数组在存储器中是按照行来存放的，结果就得到步长为 (N X S i zeD f ( im )) 的引用模式，如图 6.19( b ) 


所 /J 


int sumarraycols(int a [ M ][ N ]} 


inL i , j , 


0; 


sum 
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for (j 


N ; j -+) 

for (i = 0 ； i ^ M ； i 十十） 


0 ： j 


< 




+= a [ i ][ j ] ? 


return sum 
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6.19 (a) 一个空间局部性很差的 程序； （b) 数组 o 的引用模式 （M = 2, N = 3) 

S 数的宁 间局部 性很差> 这1因为它使用步长为 (N X dzeof(im)l 的引用模式来扫描存储器。 
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1 void clearl (point *p r int n) 


rfdefine N 1000 


for [i = 0? i 

Eor (j = 0 ； ] < 3; j++) 

p[iNvel[j] = 0; 
for (j - 0 ； j < 3; j + +) 

p [ i ]. acc [ j ] = 0; 


) 


If 


typedeE struct { 

int vel[31: 

int a^c [ 3 ]； 


} point* ? 


10 


11 


8 


point p[W ]； 


( b ) clearl 函数 


[a ) structs 数组 


void cle^r3(point 


int n) 


女 




t 


void clear2(point *p f int n) 


2 


int i, j; 


for (j 二 0; j < 3 

for (1 = 0 ； i 

p[i] *vel[j] = 0; 

for (i 二 0; i < n ； i 十十 ) 

p[i].acc [ j] = 0; 


) 


for (i 


0; i 

for Ij = 0; j 

Pfil .vel[j] 

P[i].acc [ j ] 


i++) { 

< 3; t 


< n ; 


MMd 


n ； ii-h) 


< 


0 


0; 


10 


10 


11 } 


11 } 


f d ) clcar3 函数 


( c ) clear 2 函数 


6.20 练习题& 5 的代码示例 


6.3 存储器层次结构 

6+1节和6+2 P 描述了存储技术和计算机软件的一些基本的和持久的 属性： 

* 不冋存储设备的访问时间差异很大。速度较快的设备每字节的成本要比速度较慢的设备高， 
而且容量较小。 CPU 和主存之间的速度差距在增人 & 

• 一个编写良好的程序倾向于展示出良好的局部性。 

计算技术中一个喜人的巧 合是. 硬件和软件的这些基本属性互相补充得很完-美。它们这种相 V . 
补充的性质使人 想到… 种组织存储器系统的方法，称力存储器层次结构 (memory hierarchy ), 所有 
的现代 if 算机系统中都使用了这种方法，图 6.21 展小/一个典型的存储器 M 次结构。 

-般而言，从高 M 往底层走，存储设备变得更慢，更便宜和更大6在 最高层 （L0)， 是少量的 
怏速 CPU 奇存器， CPU 可以在一个时钟周期内访问它们，接卜来是一个或多个小型或巾胡的苺 f 
SRAM 的高速缓存存储器，可以在几个 CPU 时钟周期内访问它们。然后是一个人的基于 DRAM 
的卞_存， 可以 在几 t 或几百个时钟周期内 i 方问它 们。接 K 来是慢速但是容 童拫大 的本地磁盘， 
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*21 存 # i * g 次结构 


*^. 其 ii 的存醱曝屢次筚衡 

我 们匆体 展守了，个存镛8麈欢 示例. frpt 其他料 I &合电是可 俾的， AA . SHMPttl , 旬 
知， 许多 J * 方4本 it ㈡ 4备&到存^的葙爭上.美中 f # 地方 fe 在**11是#人本手: t 地取射祕學的， 
ft 其申 还有#也寺是 幸* uB 人 自劫地 t 成4項任务的，見於在啤# ftt 况 dm 是存驽»廣次相 
构申的 一展， 在木好 ；■怎釋■蜃 T «, 的練 ftiR 禅埴 fl 于它， 瑾 f 鲁 ftx 磁》史便:^ t 

诗人们将本絶磁食十: S 个 ft . 嗓存粬.铒是蹦琴的访 R 呤间*比玷4的 霆长. 


63 J 在存 ft 器层次结构中 納缓存 

一坦 _| f . 务速域存 CMh ^ 读作"見一个小而快述的# tUSft fc 它作为 打钻在 圯大， 
15 ftft 的 St S 4 珀 at S 对 ft 的级冲区域 ■ 试喝阄速汸存的过样 S »为*|存 (^hingp lift ：" castling 

存 WI 馮崧次姑构的中心恩 姒 S , 对于每个 I ,位的史快史如的# Wt 备作为位 

的 I 大更慊的存 lifi 设备的缓# ■, 視 hi # 说. 锫妁屮的每一居柿績# Ufl 较低一 M 的数据对象. 
m , 本地磁 s 怍为 ikm 络从远取山 的文什（肉如 铒虹〗 mn , 主存作为本地田盘 

依此类 ft . 竅到 堆小枘 a #— cpu ® 存睢柬合， 

Mt 22 ttii frfiimy 次结 w 中 s # 的一盼性概念 ■ s k + l 屋的存铺器被划分成连埭的 ft 据时 
取执块 Uh \ mk ^ h 称为玦 ihkKk^K _十块《»有_个惟一的地 Jil ■或识 字， 使之区別 r 其他的块_块 
"I 以是沏定欠小 mm ft 这栉的 h 也呵以1可变太小的< M #柚在 Wrf > 田务雄 欠的虹 fl HT 74 L 
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文件)。例如，图622屮第 fc +1 记#储器被划分成16个大小固定的块，编弓为0〜15 3 

类似地，第 k 层的存储器被划分成较小的块的集合，每个块的人小与 k +1 层的块的人小一样 □ 
在任何时刻，第 k 妃的缓存包含第 k +1/ d 块的一个子集的拷贝。例如，在图 6.22 中，第 kS 的缓# 
TT 4 个块的空间，与前包含块4、9、14和3的 拷贝。 

数据总是以块大 小为传送单元 Uransfer unit ) 仵第 k M 和第 k +1 U 之间来回拷31 的。 虽然在层 

次结构中任何一对布邻的层次之间块大小是固定的，但是其他的层次对之间可以有不同的块人小。 
例如，在图 6.21 中， L1 和 L0 之间的传送通常使用的是1个字的块。 L2 和 L1 之间（以及 L3 和 L2 
之间）的传送通常 ; 吏用的是4〜8个字的块。而 L4 和 L3Z 间的传送用的是大小为几百或儿^字以 
的块。一般而3,层次结构中较低 M (离 CPU 较远）的设备的访 M 时间较长，因 此为了 补偿这峙较 
K 的访 M 时间，倾向丁•使用较大的块6 


第 tS 更小 * 更快、更 W 贵的设备 
缓存宥第 k + ifi 块的•个子集 


第 It A I I 9 I I 14 I I 3 




数据以块人小为传输 

单兀 rr 层々层之[可拷 k 


B—lmlmiiM 

■mmmm 


更人、吏®、电便 
宜的设备被划分成块 


^ k +1 Hi 


6.22 存储器层次结构中一个基本的缓存原理 


缓存命中 

当程序需要第 k + t 层的某个数据对象 d 时，它首先在当前#储江第 k 层的/个块中査找 d 。 如 
发<1刚好缓存在第 k 层中，那么就是我们所说的缓存命中 (cache hit ). 该程序直接从第 k 层读取 d , 

根据疗储器层次结构的性质，这要比从第 k+lM 读取 d 更快。例如，一个有良好时间局部性的程序 

可以从块 i 4 巾读出一个数据对象，得到一个对第 k 层的缓存命中。 

缓存不命中 

另一方面，如果第 kg 中没冇缓存数据对象 d， 那么就是我们所说的缓存不命中 (cache miss), 
缓存不命中时，第 k 层的缓存从第 k+1 层缓存中取出包含 d 的那个块，如果第 kU 的缓#己 
经滿了的话，可能就仑镘盖现存的•个块， 

蒗盖个现存的块的过程被称为替换 ( replacing ) 或驱逐 ( evicting ) 这个块。波驱逐的这个块 

有时也被称为牺牲块 〔victim block). 决定该替换哪个块是由缓存的替换策略来控制的。例如， - 
个具有随机替换策略的缓存会随机选择一个粞牲块。一个具有最近最少被使用 （LRU) 荇换策略的 
缓4会选择那个最后被访问的时间距现在最远的块。 

在第 kl 缓存从第 k + iM 取出那个块之后，程序就能像前面 样 从第 k 塏读出 d 了。例如 ，在 
图 6.22 巾，在第读块12中的个数据对象，会导致一个缓存+命中，因为块12当前小在第 
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k 展缓存中。 一 旦把块〗2从第 k +1 层拷贝到第 k 层之后，它就会保持在那1,等待稍后的访 

缓存不命中的种类 

K 分不冋种类的缓存不命中冇时候是很有帮助的。如果第 k 层的缓存是空的，那么对任何数据对 
象的访问都会不命中 D —个空的缓存有时被称为 冷缓存 （cold cache )， 此类不命中被称为强制 性不命 
中 (compulsory miss ) 或冷 不命中 （ coldmiss )。 冷不命中很重要^因为它们通常是短暂的事件，不会 
在稳定状态中出现，稳定状态指的就是在反复的存储器访问已经将缓存变暖 （ warmed 叩）了之后。 

只要发生了不命中，第 k 层的缓存就必须执行某个替换策略，确定把它从第 k + l 层中取出的块 
放在哪里6最灵活的替换策略是允许来第 k +1 层的任何块放在第 kM 的任何块中。对于存储器层 
次结构中高层的缓存（靠近 CPU ), 它们是用硬件来实现的，而且速度是最优的，这个策略实现起 
來通常很昂贵，因为随机地放置块，定位起来代价很高。 

因此，硬件缓存通常嗖用的是更严格的放置策略，这个策略将第 k +1 层的某个块限制放置在第 
k 层块的一个小的子集巾 （有 时只是一个块 X 例如，在图 6.22 中，我们可以确定第 k +1 搓的块 i 
必须放置在第 k 层的块 （ imod 4) 中。例如，第 k +〖 层的块0、4、8和12会映射到第 k 层的块0, 
块1、5、9和13会映射到块1，依此类推。注意 

这神限制性的放置策略会引起一种不命中，称为冲突不命中 (conflict miss ), 在这种情况中， 
缓存足够人，能够保存被引用的数据对象，但是因为这些对象会映射到同一个缓存块，缓存会-直 
不命中6例如，在图 6.22 中，如果程序请求块0,然后块8,然后块0,然后块8,依此类推，在第 
k 层的缓存中，对这两个块的每次引用都会不命中 f 即使是这个缓存总共可以容纳4个块 D 

程序通常是按照一系列阶段（例如，循环）来运行的，每个阶段访问缓存块的某个相对稳定不 

变的集合。例如，一个嵌套的循环可能会反复地访问同一个数组的元素。这个块的集合被称为这个 
阶段的工作集 （ workingsrth 当工作集的大小超过缓存的大小时，缓存会纶历容量不命中 (capacity 
miss ). 换句话说，缓存就是太小了，不能处理这个工作集。 

高速缓存管理 

正如我们提到 过的， 存储器层次结构的本质是，每一层存储设备都是较低一层的 缓存。 在每 … 
层上，某种形式的逻辑必须管理缓存。这里 t 我们的意思是指某个东西要将缓存划分成块，在不同 
的层之问传送块，判定是命中还是不命中，并处理它们。管理缓存的逻辑可以是硬件，软件，或是 
两者的结合。 

例如，编译器管理寄存器文件，缓存 M 次结构的最高层。它决定当发生不命中时何时发射加载， 
以及确定哪个寄存器来存放数据。 L 1 和 L 2 层的缓存完全是由内置在缓存中的硬件逻辑来管理的。 
在一个有虚拟存储器的系统中， DRAM 主存作 为存储在磁盘 h 的数据块的缓存，是由操作系统软件 
和 CPU 上的地址翻译硬件共同管理的。对于一个具有像 AFS 这样的分布式文件系统的机器来说， 
本地磁盘作为缓存，它是由运行在本地机器 h 的 AFS 客户端进稈管理的。在大多数时候.缓存都是 
自动运行的，不需要程序采取特殊的或显式的行动。 

6.3.2 存储器层次结构概念小结 

概括来说* 存储器 居次结构行之有效，是因为较慢的存储设备比较快的存储设备更便宜，还因 
为程序倾向于展示局部性： 


6.22 中我们的示例缓存使用的就是这个策略。 
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• 利用时间局 部性： 根据时间局部性，冋…数据对象可能会被多次使用 。一旦 一个数据对象 
在第一次不命屮时被拷贝到缓存中，我们就会期望后面对该口标有一系列的访问命巾。 M 
为缓存比低 H 的存储设备更快.对后面的命中的服务会比最开始的不命中快很多。 

• 利用空间局 部性： 块通常包含有多个数据对象。根据空间局部性，我们会期望后面对改块 

中其他对象的访问能够补偿不命中后拷贝该块的花费。 

现代系统中到处都 使用了 缓存。正如从图6+23中能够肴到旳那样， CPU 芯片、操作系统、分布 
式文件系统中和万维网上都使用了缓存。各种各样硬件和软件的组合构成和管理着缓存。注意， 
6,23中有大量我们还未涉及到的术语和缩写。在此我们包括这些术语和缩写是为了说明常见的缓存 
是什么样+的 。 


类型 


绿存的内容 


被缓存在何处 1执行时间 cffl 期数 ） 丨由谁管理 

_ _ 

I ■.的 CPU 寄存器 
S 片卜.的 TLB 
芯片上的 U 高 漣缓存 
芯片外的 L 2 阇速缓存 


CPU 寄存器 


梓1、字 
地 址翻! 華 
32?节块 

32宇节块 


0 编译器 
0 硬件 MMU 


TLB 


U ®； 速缓存 
L2S 速缓存 
虚拟存储器 
缓冲 k 离速缓存 邡分文件 

网络缓冲 K 部分文件 

浏览器高速缓存 Web® 

Web 髙速缓存 Web 页 


硬件 


10 硬件 
100 硬件 + OS 


页 


主存 




主存 


本 地磁盘 
本地®盘 
远程眼务器磁盘 


10000000 AFS/NFS 客户 

I 

10 000000 Web 浏览器 

1000 000000 Web 代理服务器 


6.23 缓存在现代计算机系统中无处不在 

\J； 存储器管理单元 （MetQ<>ryMajmgemeiUlJrdi): OS : 換作系统 


TLB ： ffi 译后备缓冲器 

(Operating Sybtera )； AFS ； 安德鲁文件系统 (Andrew File System )： KFS ： 网络文件系统 （Network FHc Sysietnh 


( Translmu ^ Look^ide Buffer )： 




6.4 高速缓存存储器 


早期计算机系统的存储器敁次结构只有三妃： CPU 寄存器、主 DRAM 存储器和磁盘存储设备。 
小过 T 由于 CPU 和主存之间逐渐增大的差距，系统设计者被迫在 CPU 寄存器文件和主存之间插入 
了 -个小的 SRAM 存储器，称为 L1 高速缓存 （ -级缓存）。 在现代系统中， L1 高速缓存位于 CPU 
芯片上（也就是，它是芯片上的高速缓存) t 如图匕24所示* L1 高速缓存的访问速度几乎和寄存器 
一 样快，典型地是1个或2个时钟周期 

随着 CPU 和主存之间的性能差距不断增大，系统设计者在 L1 高速缓存和主存之间又插入了一个 
高速缓存，称为 L2 高速缓存，可以在几个时钟周期内 访问 到它。可以将 L2 卨速缓存连接到存储器总 
线，或者连接到它自己的高速缓存总线 Ccache bus), 如图 6.24 所氺。有些卨性能系统，例如那些基 
r-Wpha2U64 的系统，其至1在存储器总线上还有一层高速缓存，称为 L3 高速缓存，在层次结构中 
位于 L2 高速缓#和主存之间。虽然在安棑 卜有相 当多的种类，但是一般的原则都是一样的 t 

6 A 1 通用的高速缓存存储器结构 

考虑一个汁算机系统，其中每个存储器地址冇 w 位，形成 W = 2 m 个不同的地址。如图 6.25 (a) 
所示，这样- 个机 器的卨速缓存被组织成一个 S = F 个高速缓存组 (cacheset) 的数组。每个组包含 





4 tS 


E 个高 速缓 4 行 line ). 毎个行 j | 由一个 fl =3^ 宇节拊 


( bl ® k ) 组成的. 一个有 itti 
ivilidbit ) 箝明 这个 tr 包含的数期圮古有應 ：义，坯有 f = * j ) 个柠记拉 Cdgbit ) [ IS 前块的 

存闭埠 堆址的位子集 h 它们 t 一地 ( SiJl # «在这个 离速 行中的块， 


CPU 咖 








繼 t 总 4 


a * t*q 


iff 


n 




^ »干 Ll 和匕典速 場存的 奥甬总 线结特 

ttff 1 + 毎行 it 

IP ftfttt 


f - 9 H 


m 


m 


B-A 


ft 


y » iif«K 


[W¥] 1 tf \： J [T 7 " I ~■" |g-i| 

[frftl \ ftk!] [J3 [ 1 I …: |fl- 1| 

■ 

A 

RT^l I tt^L ； ifo 


S ■浐 fll i 




Aitff # 太 + Co B>iS^$ KK 字， 

Cal 


f 




d 




a*^i 块 》4 

< fc > utmit 


ffi&zs mm ( s l E r B . m ) 的 a 闬锖构 

<a3 典地功 4*-■ 个 S? ■ 电 OBIS ， t^l^T. 轉个行 tiS 
■I 則醜 +Wf * 个抽 _M£bmjHr r 专 SiJ 位 " T 争 fr+tt.ttt? 


fttm , tia —+4 鋼块, 


r] 
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一般而言，卨速缓#的结构可以用元组 ( S , E ， B 、 m ) 來描述。高速缓存的大小（或容量 ） C 指的 
是所有块的大小的和。标记位和有效位不包括在内。因此 ， C = Sy ( EXB , 

当一条加载指令指示 CPU 从主 存地址 A 中读…个字时，它将地址 A 发送到髙速缓存，如果髙 
速缓# iH 保存着地址 X 处那个 t 的拷贝，它就立即将那 个宁发 冋给 CPU 。 那么髙速缓#如何知道它 
是否包含地址 A 处那个字的拷贝的呢？高速缓存的结构使得它能通过简单地检查地址位，发现所请 
求的字，类似于使用极其简单的哈希承数的哈希表。下面就是它是如何工作的： 

参数 S 和忍将⑺个地址位分为了二个字段，如图 6.25 ( b ) 所示。4中 j 个组索引位是一个到 S 
个组的数组索引 。 第一个组是组0,第一-个组是组1,依此类推。当作为一个无符号榷数解释时，组 
索引位告诉我们这个字必须存储在哪个组中。 一 旦我们知道了这个字必须放在哪个组中， d 中的 t 
个标记位就告诉我们这个组中的哪行（如果有的话）包含这个字。当且仅当设置了有效位并 H . 该 
行的标记位与地址 A 中的标记位相匹配时，组中的这行包含这个字。-旦我 们在由 组索引标识的 
组中定位了由标号所标识的行，那么 i !> 个块偏移位给出 f 在 B 个字节的数据块中的字偏移。 

你可能己经注意到了，对卨速 缓存的 描述使用了很多符号 ， 图&26对这些符号做/个小结，供 


你参考。 


本 


参数 


描述 


s=r 


组数 


每个组的行数 
块大小 （字 n :_ 

(主存）物珲地址位数 


E 


B = 2 b 

m = logifAfJ 


衍生出 来的量 




描述 


M = 2 m 


存储器地址的最人数 t 

组累引位 t 
块俦移砬数 
标 I :位数 

个包括偉有效位和标 c 位这样丌销的卨速缓#人小 cr 节) 


， = log 2 (5) 

ft = bg2( ff j 


f = fft (a +6) 


C-B x E 


6,26 高速缓存参数小结 


练习题 6.6 

下表给出了几十不同高速缓存的参數。确定每个高速缓存的高速缓存组数 （ S ), 标记位数0)、 

组索引位敌 D 以及块偏移位数 [ b )。 


c 


B 


E 


S 


b 


32 


1024 


2. 


32 


1024 


4 


1 


32 


1024 


32 32 


6.3? 風悻铁 « 高 ii 編存 (£=1_ 


W 个哪卜 


在这一_中，麻逋_存从*的地址中间揄取 nu 个射 京引忟,运，位甩解杆成一个対 a 十一个 
tu 4 的尤符 巧替数.換句话 来说. 蚴明我{(】粑麻速«存1成趣一个筅子钳的 ^ttMp 
索 Wfirftft —个到这个 ft 坩的嫩引， K &2& 軀索了 1接»射布过缓#的_选114知 Hi 作 M . : _植 
个 w 于中，绁索引位 or 〕 I :破_邛为一个 a 神組 I 的整数 索引* 


餓设我 U 有这样一个系统,它有』个 cpu 、 一 个寄存 •: -t u 高*績存和_ ■个主存* 

气 CPU 执行■条攻作钻器的托令，它向1』泡速级存诮求这个字 * 如！ tL 岛 Jil 存有 w — 
个淡#的代贝，》么线 *3 H 赵述缓存命中，裹速铒 ft 会根快抽取出 w , 并将它返回论 CPU . 也 
則站跬商速统存不命巾.气 LI 拘速嫌#肉11存《求包含 w 柄块_一个拷耵时 • CTU 必级專恃，当 
被请求的块 * 终从*袖器刊达 a.h Ll fiii 缠存将这个块 #：• &在它的一个 A 迪墦# 行] ft . 从被#锗的 
块中抽取出手*，姑后稗它返殹给 CPI ； _葙速镬存 SI 定一个谓求忠否 命中 ，相后裨电地被晴承的 T 
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行中包含 w 的一个拷贝。 

图 6.29 展小 了宫接 映射岛速缓存中行匹 0 d 是如何工作的。这个行的有效位设苒了，所以我们知 
道标记中的位和块是有意义的。因为这个高速缓疗.行屮的标记位与地址中的标记位相匹配，所以我 
们知道我们想要的那个字的一个拷 W 确实存储在这个 fr 中。换句话说，我们得到一个缓#命中。另 
方面，如果有效位没有设置，或者标记小相匹配 T 那么我们就得到一个缓存不命中。 


- 1? (11 必须置有效 


选择的组^ 


cmo 


^ w 3 


<3)如果 （ i ) 和 （2) 满足， 
那么髙迪缓存命屮，块 
«移就选样出了起始 


(2 i 髙速缓存打中的标 

k ! 位必沏亏地址申 

的标记位相 R 配。 


卞节 1 


b 位 


f{i 


s 位 


0T10 1 T I 10Q 

T^-1 0 

组索引 ft 偏移 

图 6.29 直接 映射离 速缓存中的行匹配和宇选择 

在髙速缓存块中 + w 0 表小 Tw 的低 位字节 T w,fi 下一个字节， 依此类推> 


标记 


直接映射卨速缓存中的字选择 

旦命中，我们知道 w 就在这个块中的某个地方。最后一步确定所甫要的字在块中是从哪里开始 
的9如图 6.29 所示，块偏移位向我们提 供/所 1要的字的第一个字 W 的偏移。就像我们把卨速缓存看 
成一个行的数组一样，我们把块看成-个字节的数组，而字节偏移是到这个数组的个索引。在这个 
小例中，块偏移位是100 2 ,它表明 w 的拷 W 是从块中的字节4开始的（我们假设字长为4字节)。 

直接映射高速缓存中不命中时的行替換 

如果髙速缓存不命中，那么它需要从存储器层次结构中的下一层取出被请求的块，然后将新的 
块存储在组索引位指¥的组中的一个高速缓存 ff 中.一般而言，如果组中都是有效髙速缓存行了， 
那么必须要驱逐出一个现存的打 3 对于直接映射高速缓存宋说，每个组只包含有-行，替换策略非 
常 简单： 用新取出的行替换5前的行。 

综合：运行屮的直接映射高速绫存 

髙速缓存弔来选择组和标识行的机制极其简单。必须要这样，因为硬#必须在几个纳秒的时司 
内完成这些[:作，不过，用这种方式来处理位对我们人来说是很令人困惑的，一个其体的例子能帮 
助解释清楚这个 过程。 假设我们有-个 K 接映射高速缓描述如下 

tS ，£ t B , m ) =(4, 1,2, 4) 

换切话说，高速缓存冇四个组，每个组一行，每个块 2 个宁节 T 而地址是 4 位的。我们还假设 
每个字都是申字节的。3然这样-些假设完全是不现赏的，彳 M 是它们能使小例保持简申。 

如果你初学髙速缓存，列举出整个 地址空 间并划分好位，是很有帮助的，就像我们在图6+30对 
我们4位的示例所做的那样。关于这个列举出的空间，有些冇趣的事情值得注意 ： 

* 标记位和索引位连起来惟一地标识了存储器中的每个块 。 例如，块 0 是由地址 0 和 1 组成 
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的，块1是由地址2和3组成的，块2是由地址4和5组成的，依此类推。 

因为有8个存储器块，但是只有4个髙速缓存组，多个块映射到同一个髙速缓存组（也就 
是，它们有相同的组索引）。例如，块0和4都映射到组0,块1和5都映射到组1，等等。 
映射到同一个髙速缓存组的块由标识位惟-地标识。例如，块0的标 t 只位为0,而块4的标 

识位为块1的标识位为0,而块5的标识位为1， 


地址位 

索引位 


偏移位 

Cb=1) 


块号 


地址 


标记位 


(十进制) 


( 十进制 ) 


(M) 


(斿 2) 


00 


0 


00 


0 


0 


m 


0 


01 


10 


10 


0 


11 


0 


11 


00 


4 


00 


in 


01 


01 


12 


10 


13 


10 


6 


H 


11 


15 


11 


6-30 示例直接映射高速缓存的4位地 址空间 

让我们来模拟一下当 CPU 执行■系列读的时候，高速缓存的执打情况.£住对于这个示例，我 
们假设 CPU 读1字节的字。虽然这种手工的模拟很乏味，你可能想要跳过它，但是根据我们的经验 * 
在学生们经历过高速缓存是如何工作的之前，他们是不能真正理解的。 

初始时，缓存是空的（也就是，每个有效位都是 0): 




有效位 标记位 


块 "1 


表中的每一行都代表 •个高 速缓#行，第一列表明该行所属的组，但是请记住提供这个位只是 
为了方便，实际上它并不真是缓存的一部分。后面四列代表每个髙速缓存行的实际的位现在，让 
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我们来 肴看3 CPU 执行一系列读时， 都发生 / 什么： 

1.地址0的宇因为组0的有效位是0,是缓存小命中。卨速缓存从存储器（或低层的卨速 
缓存）取出块0,并把这个块存储在组0中6然后，高速缓存返冋新取出的髙速缓存行的块[0〗的 
储器位置0的内容)。 


有效位 标记位 


块 [0] 


块⑴ 


组 


m[0] 


mfl ] 


2. 读地址 1 的字。 这次会缓存命中。卨速 缓存立 叩从卨速缓存行的块 [1] 中返 ㈣ m [ l ]。 高速缓 
存的状态没有变化。 

3. 读地址13的字。由于组2中的卨速缓#行+是有效的，所以有缓存不命中。高速缓存把块 
6加载到组2屮，然后从新的高速缓存行的块[〗]中返回 

有效位 I i 记位 


块 m 


组 


块 [0] 


m [0 l 




0 


m[ 】 2} 


m [ l 3| 


4. 读地址 8 的宇•这会发牛 _ 缓存不命札组 o 中的高速缓存行确实是有效的， 但是 标记不匹配。 

高速缓存将块4加载到组0中（替换读地址0时读入的那一行)，然后从新的高速缓存行的块 [01 中 
返回 m [8 J * 


有效位 标记位 


块[” 


块 [0] 


m[S] 


m[9] 


0 


m[]2] 


m [ J 3] 


5. 读地址 《 的宇 • 又会发生缓存不命中，因为在訂面引用地址8时 + 我彳 N 刚好替换了块0。这 
就是冲突不命屮的一个例 f ， 也就是我们冇足够的高速缓存空间，但是交替地引用映射到同…个组 


的块 


有效位 标记位 


m 


块 [0] 


块 "1 


邮] 


m [ l ] 


m[]2] 


m[l3] 


直接映射高速缓存中的冲突不命中 

冲突小命中在真实的程序中很常见，会导致令人困惑的性能 问题。 2程序访问大小为2的幂的 
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数组时，肓接映射卨速缓存中通常会发生冲突不命中 & 例如，考虑一个汁算两个向量点积的函数 

1 flodt dotprod(float x[8] f float y[8]} 


2 


float sum 


int i; 


for (i = 0; i < 8; i+-) 

y [i]; 


X[i] 


sum += 


return sum 


对于？ t 和 y 来说，这个函数有良好的局部性，因此我们期望它的命中率会比较高 □ 不幸的是， 
并不总是如此 a 

假设浮点数是4个字节， X 被加载到从地址0幵始的32字节连续存储器中，而 y 紧跟在 X 之后， 
从地址32 幵始。 为了简便，假设一个块是16个字节（足够容纳4个浮点数) f 高速缓存由两个组组 
成，高速缓存的整个大小为32字节，我们会假设变量 sum 实际上存放在一个 CPU 寄存器中，因此 
不需要存储器引用。根据这些假设每个 x[i] 和 y[i] 会映射到相同的高速缓 存组： 

组索引 


元素 


地址 


地址 


组索引 


x[0] 


0 


ytO] 


32 


x[l] 


0 


4 


y[i] 


36 




y[2] 


40 


又 [3] 


12 


0 


y[3] 


44 


m 


16 


yW 


4 & 


x[5] 


20 


y[5] 


52 


又间 


24 


y[6] 


56 




28 


yf7] 


60 


在运行时，循环的第一次迭代引用对 0], 缓存不命中会导致包含 x[0] 〜 x[3] 的块被加载到组0。 
接卜来是对 yffl] 的引用，又一次缓存不命中，导致包含 y[0] 〜 y[3] 的块被拷贝到组0,覆盖前一次引 
用拷见进来的 x 的值。在下一次迭代中，对 x[l] 的引用不命中，导致 x[0 卜 x[3j 的块被加载回组0, 
覆盖掉 y[0] 〜 y[3] 的块。因而现在我们就有了一个冲突不命中，而实际上后面每次对 x 和 y 的引用 
都会导致冲突不命中，我们就在 x 和 y 的块之间抖动 （thrash) □术语“抖动”描述的是这样一种情 
况，其中高速缓存反复地加载和驱逐高速缓存块相同的组。 

简要来说就是，即使程序有良好的空间局部性，而我们的高速缓#中也有足够的空间来存放 x[i] 
和的块，每次引用还是会导致冲突不命中，这是因为这些块被映射到了同一个高速缓存组。这 
种抖动导致速度卜降2或3倍并不稀奇 □ 另外，还要注意虽然我们的示例极其简单，但是对于更大、 
更现实的直接映射髙速缓存来说，这个问題也是很真实的。 

幸运的是，一旦程序员意识到了 £在发生什么，就很容易修 IF 抖动问题。一个很简单的方法是 
在每个数组的结尾放 B 字节的 填充。 例如，不是将 x 定义为 float x[S]， 而是定义成 float x〖12]。 假 
设在存储器中 y 紧跟在 x 后面，我们有 K 面这样的从数组元素到组的映射： 
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而 t , 如*个 a 扯灼离 s 位被柙么遑1*的#袖 a 喪故映射 ura - 个高速蛾 


存 ? U 


A . 母个这绛 的连飧 的权姐钮块 tcfeuiki ) 中 有身少如* fct 
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在任意叶 frU 在高速坡存♦的权&块的 t 夫軟 t 为多: 


6 A 3 组扣联 S 速嫌存 

ft 接映射级存 tit 突 ft 中迨成的问_此_子侮个组只有一行 （或者， 按照孜们的术 ift 来 
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钼0: 


有效 M 标记 


髙速缓存块 


fW| | 标记 || ~ 

fw ^ f ] f 标£ || Wmm -"" 


选择的组 


组1; 


圖 I 标记 M 卨速缓存块 i 

I 句效 I ! fea i 高速缓 # 块 

■■■! L ■， ” ■ ■ ■ _ ■■ ■■ ■ " ■ I t 


组 S -1: 


s 位 


b 位 


tK 


标记 组索引 块偏移 


6 - 33 组相联*速缓存中的组选择 




= 1?(1)必須设置有效位 


0 12 3 4 5 6 7 


1 」 iom 


Selected set ( i ): 


01 to 


w o w i w 2 w 3 


(3> 如果 U ) 和 （2) h 茛， 

那么髙速缓存命中 * 然括 
块偏移选衧起始字 ft . 


(2) 髙速缓存行中的-个， 

K - 标记位必须冱配地址 

中的标记位。 


S 位 


f 位 


b 位 


标12 


组索引 块偏移 


& 34 组相联髙速缓存中的行匹配和字选择 


组柑联高速缓存中不命中时的 n 替換 

如果 CPU 请求的字不在组的任何一行中，那么就是不命中，高速缓存必须从存储器中取出包含 


送个字的块。不过， 一 旦高速缓存取出了这 个块， 该替换哪个行呢？当然，如果有一个空行，那它 


就是个很好的候选。但是如果该组中没有空行 f 那么我们必须从屮选择一个，希望 CPU 不会很快引 
用这个被荇换的行。 


程序员很难在他们代码中利用髙速缓存 n 换策略，所以在此我们不会过多地讲述其细节。最简单 

的替换策略是随机选择要荇换的行。其他更复杂的策略利用了局部性原理，以使在比较近的将来引用 
被替换的行的概率最小。例如 1 最不常使用 （ least - frequenlly ， used ， LFU ) 策略会替换在过去某个时间 
窗口内引用次数最少的那-行 * 最近最少使用 ( least - recently-usedt LRU ) 策略会咎换; fei 后一次访问 
时间最久远的那一行。所有这些策略都需要额外的时间和硬件。但是，越往存储器层次结构 卜面走 t 
远离 CPU ， 一次不命中的开销就会更加昂贵，用更好的替換策略使得不命中最少也变得更加值得了。 


64.4 全相联高速缓存 

…个全相联高速缓存 (fully associative cache ) 是由一个包含所有高速缓存行的组（也就是，£ = 
C / B ) 组成的图 6 . 35 给出 f 基本结构. 
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因为高速缓存电路必 须并打 地搜索许多相匹配的标记，构造一个又大又快的相联卨速缓#很困 
难，而 FI 很昂贵。 因此， 全相联高速缓存只适合做小的高速缓存，例如虚拟存储器系统中的翻译备 
用缓冲器 （ TLB )， 它缓存页表项 （10.6.2 节)， 


线习蘸 6.9 

下面的问题能帮助你加强理觯高速缓存是如何工作的，有如下假设： 

• 存储器是字节寻址的 U 

• 存储器访问的是 1 字节宽的字（不是 4 字节宽的字）， 

• 地址的宽度力13位 6 

• 高速缓存是2路组相联的 （ E =2)， 块大小为 4 字节 （3 = 4), 有8个组 （S = 8 乂 
高速缓存的内容如下，所有的数字都是以十六进制来表示的： 


2 路组相联高速 S 存 


行0 


组索 标& ^有效位？_节0字节1卞节2字节3标记位有效位宇节0宇节 i 卞节2字节3 
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OB DE 


18 


4B 


hE 


91 
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B 7 


26 


2D 


Ffl 


46 


DE 


\2 


CO 


S 3 


下面的方框展示的是地址格式（每个小方框一个位），指出（在图中标出）用来确定下列内容的 


字段 r 


co 高速缓存块偏移 
CI 高速缓存组索引 
CT 高速缓存标记 


12 II 


10 


9 


4 


0 


练习皤 6.10 

假设一个程序运行在图 6 .9+的机器上，它引用地址 OxOE 34 处的1字节字。指出访问的高速竣 
存项0和十六进制表示的返回的高速缓存字节值。指出是否会发生缓存不命中。如果会出现缓存不 

命中，用来表示“返回的高速绂存字节' 

A , 地址格式（每个小方框一个位) ： 


12 


11 


10 


6 
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B r 4饋苒 fl 用: 
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6.4.5 有关写的问题 

正如我们看到的，高速缓存关于读的操作非常简单。首先，在高速缓存中査找所需字 w 的拷贝。 
如果命中，立即返回字 W 给 CPU, 如果不命中，从存储器中取出包含字 W 的块，将这个块存储到 
某个商速缓存打中〔叫能会驱 逐一个 有效的行），然后将字 w 返回给 CPU。 

写的情况就要 复杂一 些了。假设 CPU 写个己经缓存了的字 w [写命中 （write hit)]。 在高速 
缓存更新了它的 w 的拷贝之后，怎么更新 w 江存储器中的拷贝呢？最简笮的方法，称为直写 
(write-through), 就是立即将 w 的卨速缓存块写回到存储器中。虽然简争，但是直写的缺点是每条 
存储指令都会引起总线上的一个写事务。另一种方法，称为写回 (writeback) , 尽可能地推迟存储 
器更新，只有 3 锊换算法要 驱逐己 更新的块时，才把它写到存储器。由于局 部性， 写回能显著地减 
少总线事务的数景，但是它的缺点是增加了复杂性。高速缓存必须为每个髙速缓存行维护个额外 

的修改位 (dirty bit), 表明这个高速缓存块是否被修改过。 

另一个问题是如何处理写不命中。 - 种方法 * 称为写分配 （write-allocate)， 加载相应的存储器 
块到高速缓存中，然后吏新这个高速缓存块 a 气分配试图利用写的空间局 部性， 但是缺 A 是每次不 
命屮都会导致一个块从存储器传送到卨速缓存。另种方法，称为非写分配 （not-wrile-allocate) ， 

避幵商速缓存，直接把这个字写到存储器中。岜写高速缓存通常是 ir 写分配的。写回卨速缓存通常 
是写分 亂 

为写操作优化高速缓存迠 个 细致 而闲难 的问题 ， 在此我们只略讲皮毛 。 细节随系统的不同而 
不同，而 H_ 通常是私有的 f 文档记录不详细。对 T 试图编写高速缓存比较友好的程序的稃序员来说, 
我们建议 4 心甲 :采 HJ- 个 使用写["』利写分配的卨速缓存的模型，这样建议有几个原因。 

通常，由于较 K 的传送时间，存储器层次结构中较低居的缓存更可能使用写回，而+是直气， 
例如，虚拟存储器系统（用主存作为存储在磁盘上的块的缓冇）只使用写回 D 但是田于逻辑电路密 
度的提卨， 写囡的 高复杂性也越来越不成为阻碍了，我们在现代系统的所有层次上都能看到写回高 
速缓存。所以这种假设符合当前的趋势。假设使用写回写分配方法的另-个原因是，它 4 处理读的 
方式相对称，因为写冋写分 m 试图利用局部性。因此，我们可以在高层次上开发我们的程序，展示 
良好的空间和时间局部性，而不是试图为某一个存储器系统进行优化。 

6.4.6 指令高速缓存和统一的高速缓存 

到 n 前为 ib 我们-电假设髙速缓存只保存程序数据，不过，实际上，高速缓存既保存数据， 
也保存指令。只保存指令的高速缓存称为 Uache . 只保存程序数据的高速缓存称为 既保 
存指令乂包括数据的卨速缓存称为统一的高速緩存 （unifiedcache)。 一个典型的桌面系统 CPU 芯片 
本身就包括一个 LI i-cache 和■个 LI d-cache。 图疢 38 总结了基本的结构， 
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相联度的影« 

这电的问题是参数 E (每个组中高速缓存行数）的选择的影响。较髙的相联度（也就是 E 的值 
较人）的优点是降低 r 岛速缓存甶于冲突不命中出现抖动的町能性。不过，较髙的相眹度会造成较 
卨的成本。较高的相联度实现起来很昂贵 t 而 R. 很难使之速度变快 。 每一行需要更多的标记位，每 
一 行需耍额外的 LRU 状态位和额外的控制逻辑。较高的相联度会增加命中时间，因为复杂性增加了 - 
另外，还会增加不命中处罚，因为选择牺牲行 (victim line) 的复杂性也增加了。 

相联度的选择最终变成了命中时间和不命中处罚之间的折中。传统上，努力争取时钟频率的商 
性能系统会选择茛接映射 L1 高速缓存（这里的不命中处罚只是几个周期），而在较低层上使用比较 
小的和联度（比如说2〜 4), 但是没有固定的规则。 htd Pentium 系统中， L1 和 L2 高速缓存是4 
路组和联的。 Alpha 21】64系统中， L1 指令和数据高速缓存是直接映射的， L2 髙速 缓存是 3路组相 

联的，而 L3 高速缓#是 g 接映射的。 

写策略的影《 

直写高速缓存比较容易实现，而 F1 能使用写缓冲区 （write buffer)， 它独 立丁卨 速缓有 * 用来更 
新存储器。此外，读不命中幵销没这么大，因为它们不会触发存储器写。另一方面，写叵卨速缓存 
引起的传送比较少，它允许吏多的到4储器的带宽用十执行 DMA 的1/0设备。此外，越往 U 次结构 
下向传送时间增加，减少传送的数最就变得更加重要。般而言，高速缓存越杵下以，越可能 
使用写冋而不是直写。 


旁注： 髙速缓存行、组和块有什么区别？ 

很容易浞淆高速緩存行、组和块之间的区别，让我们来®類一下这些概念，确保概念清晰： 

• 块是一个固定大小的隹息包，在高速緩存和主存（或下一雇高速 緩存） 之阀来铒传送. 

* 行是高速緩存中存倚块以及其他信息（例如有效位和标 记位） 的容 I 
* 组是一个或多个行的集合.直接硖射高速级存中的组只由一行组成#组相联和全相联高速缓存中 
的姐是由多个行組成的 # 

在直接 8 fc 射高速缓存中，组和行螭实是等价的.不过，在相联高速緩存中，组和行是很不一样的， 

这两个词不能互换使用， 

因为一行总是存储一个块，术# “行”和 K 块"通常亙糗使用.例如，系洗专家总是说高速緩存的 
“行大小”，实际上他们指得是块大小_这样的用法十分普遍，只要你理解块和行之间的 区别， 它不会 
造成任何诀会1 


6.5 编写高速缓存友好的代码 


在 6.2 V:中，我们介绍了局部性的思想，而且人棰地谈了一下什么会 A 冇良 好的局 部性。既然 
我们己经明0 了髙速缓存存储器是如何 1. 作的/，我们就能更加精确一祖周部性比较好的稃序 
吏容易有较低的不命中率，而不命中率较低的程序倾向于比不命中率较高的程序运行得更快 * 因此， 
从具有良好局部性的意义上来说，好的程序员总是应该试着去编写 高速缓存友好 (cache friefldly) 
的代码。卜面就是我们吊乘确保我们的代码高速缓存友好的基本 方法： 

1. 让最常见的蜻况运行得快。 程序通常把大部分时间都花在少量的核心函数上，而这些函数通 
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常把大部分时间都花在了少量循环上。所以要把注意力集中在核心函数里的循环上，而忽略其他部 


分。 


2. 在每个循环内部使缓存不命中数量最小， 在其他条件，例如加载和存储的总次数， 相 同的情 
况卜' 不命中率较低的程序运行得更快。 

为了看看实际上这是怎么工作的，考虑62节中的函数 sumvec : 


int suinvec (int v [N]) 


0 


xnt sum 


4 


for (i = 0; i < N; i++) 


5 


二 v[i] 


return sum? 


这个函数高速缓存友好吗？首先，注意对于局部变量 i 和 sum ， 循环体有良好的时间局部性。 
实阮上，因为它们都是局部变量，任何合理的优化编译器都会把它们缓存在寄存器文件中，也就是 
存储器层次结构的最髙展中，现在考虑一下对向量 v 的步长为1的引用 . 一般而言，如果一 个髙速 
缓存的块大小为 B 字节，那么一个步长为 k 的引用模式（这里 k 是以字为单位的）平均每次循环迭 
代会有 min ( l ，（ wordsizeXk )/ B > 次缓存不 命中。 当 k = l 时，它取最小值，所以对 v 的步长为1的引 

用确实是高速缓存友好的，例如 * 假设 v 是块对齐的，宇为4个字节，高速缓存块为4个宇，而高 

速缓存初始为空〔冷高速缓存然后，无论是什么样的高速缓存结构，对 v 的引用都会得到 K 面的 
命中和不命中模式： 




V[l) 






访问 噸序， 命中 [ h 】 成不命中 [ m ] 


在这个 例子中 ，对 v [0] 的引用会不命中，而相应的包含 v [0] 〜 v [3] 的块会被从存储器加载到高 
速缓存中。因此，接下来三个引用都会命中，对 v [41 的引用会导致不命中，而一个新的块被加载到 
高速缓存中，接 F 来的三个引用都命中，依此类推。一般而言，四个引用中的三个会命中，在这种 
冷缓存的堉况下，这是我们所能做到的最好的情况了 . 

总之，我们简单的 sumvcc 示例说明了两个关于编写髙速缓存友好的代码的重要问题： 

对局部变 t 的反复引用是好的，因为编译器能够将它们缓存在寄存器文件中（时间局部性 ), 

步长为1的引用模式是好的，因为存储器层次结构中所有层次上的缓存都是将数据存储为 
连续的块（空间局部性)。 

在对多维数组进行操作的程序中，空间局部性尤其重要。例如 t 考虑 6.2 节中的 
函数，它按照行优先顺序对一个二维数组的元素 求和： 




sumamyrows 


int sumarrayrows(int a[M][N]) 


int i, j, sum = 0 


for (i 


0; i < M; i+ +1 
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for (j 


0; j 


N; ]+ + ) 


< 




a[il [川 


sam 十 = 


return sun 


由 fc 以行优先顺序存储数组，所以这个函数中的循环有与 
模式。例如，假设我们对这个高速缓存做 s 对 
的命中和不命中模式： 


一 样好的步长为1的访问 
样的假设。那么对数组 a 的引用会得到下面 


sumvec 


sumvec 


HlUHIIIII 

^___ ___ 


但是如果我们做〜个看似无伤大雅的改变——交换循环的次序，看看会发生什么 


int sujnarr^ycols (int a [M] IN]) 


sum 


for (j = 0 ; j < N; j + + i 

for (i - 0; i < M ； i 十十 ) 

sum += a [ i ] [ j ]; 


return sum ； 




在这种情况中，我们是一列一列而不是一行一行地扫描数组的 D 如果我们够幸运，整个数组都 
在高速缓存中，那么我们也会有相同的不命中率1/4。不过，如果数组比髙速缓存要大（更可能出 
现这种情况)，那么每次对 a [ i 】[ j 】 的访问都会不命中！ 




J[mJ 


2 [ml 


3[m] 


4[m] 


较高的命中率对 fe 行时间可以有显著的影响 t 例如，在我们的桌面机器上 t sumarraycok 每次 
迭代耑要运行大约20个时钟周期， ffSsu _ ayiow s 每次迭代需要运行大约10个周期6总之，程序 
员应该注意他们程序中的局部性， U 着编写利用局部性的程序。 

练习题6,14 

在信号处理和科学计算的应用中，转置矩阵的行和列是一个推重要的问题.从局部性的角度来 

看，它也很有趣，因为它的引用模式既是以行为主 （ row - wise ) 的，也是以列为主 （columnwise ) 
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的。 例如，考虑下面的转置函数 


typedef int array[2] [2 ] ； 


2 


void transposel(array dst f array src) 


for ii = 0; i < 2; i++} { 

for (j = 0; j 


2; > 十 H 

dst[j][i] = src[i][j]; 


< 


10 


11 


12 


假设在一台具有如下属性的机器上运行这段 代码： 

• sizeof(int) = 4. 

* src 數组从地址0 开始， dst 数组从地址16开始 （ 十进制 h 

• 只有一个 L 1 数据高速緩存，它是直接映射的，直写1写分配，块大小为8个字节。 

* 这个高达缓存总的大小为 16 个数据字节，一开始是 空的。 

• 对 src 和 dsl 数组的访问分别是读和写不命中的惟一原因， 

A. 对每个 row 和 col, 指明对 src[row][col] 和 dst[row][cdI 的访问是命中 （ h) 还是不命中 （ m) 
例如，读 src[0]I0] 会不命中，写 dst[0][0] 也不命中， 


B . 对于一个大小为32数据字节的高速缓存重复这个练习趙 


练习题6,15 

最近一个很成功的游戏 Sim Aquarium 的核心就是一个紧密循环 ( tight loop ), 它计算256个海 
条 （ algae ) 的平均位置.在一台具有块大小为16字节 （ B =16)、 整个大小为1024字节的直接映射 
数据缓存的机器上測量它的高速绫存性能 . 复义如下： 


struct algae_poaition { 

int x ； 
int y; 


6 struct algae_position gridfl6][16]; 

7 int total_x = 0, total_y = 0 ； 

8 int i, j ； 

还有如下 假设： 
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sizeof ! int) 
grid 从存储器地址0 开始 a 

这个高速缓存开始时是空的 a 

惟一的存储器访问是对数组 grid 的元素的访问。变量 i , h totaLx 和 totally 存故在寄存器 


4。 


攀 


中。 


确定下面代码的高速缓存性能: 


for (i =0; i < 16 ； i++) { 

0 ； j 

total x + 


for (] 


16 ; J 十 +) { 

grid[i][j]*x ； 


< 






t ? 


for (i = Q ； i < 16 ； i + + ) 

16: j ++) { 

total_y grid[i][j] -y; 


for (j 


0; 〕 


< 




10 




A . 读总数是多少？ 

B . 高速緩存不命中的读总欵是多少？ _ 

C . 不命中率是多少？ _ 


蘇习鼉6.16 

给定练习题6,15的假设.确定下列代码的高速缓存 性能: 




for (i = 0; i 

for (j = 0; j 

total 


16; i + + ) { 

16; j ++ )( 

孑 rid[j][i].x ； 

total」/ += grid[j][i] f y ； 


< 




X 十二 




A . 读总数是多少？ 

B . 高速缓 存方命 中的读总数是多少？ 

C . 不命中率是多少？ _____ 

D . 如果高速缓存有两倍大，那么不命中率会是多少呢？ 

mm 6 M 

给定练习题 6.15 的假设，确定下列代码的高連缓存性能 


for [i 


0; l < 16 ； i + + ){ 

for (j = 0; j 

total 






16 ； 


< 


++ 


grid[i][j].x ； 
totally +- grid[i][j] 


X + = 


、Yl 
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6 


A . 读总数是多少？ _ 

B . 高速缓存不命中的读总数是多少？ _ 

C 不命中率是多少？ _ 

D , 如果高速缓存有两倍大，那么不命中率会是多少呢? 


6.6 综合： 高速缓存对程序性能的影响 


本节通过研究卨速缓存对运行在实际机器上的程序的性能影响，综合了我们对存储器层次结构 


的讨论。 


6.6.1 存储器山 (memory mountain) 

一个程序从存储系统中读数据的速率被称为读吞吐率 (read throughput ), 或者有时称为读带宽 
(read bandwidth ). 如果一个程序在 s 秒的时间段内读 i ! 个字节，那么这段时间内的读吞吐率就等 
f - n / s , 典型地是以兆字节每秒 （ MB / s ) 为单位的， 

如果我们要编写外程序，它从一个紧密程序循环 (tight pragram loop ) 巾发出系列读请求， 
那么测1出的读吞吐率能 ih 我们看到对于这个读序列来说的存储系统的性能。图 6.40 给出 r ■对测 
量某个读序列吞吐率的 M 数。 


code/mem/mounta in/mountain, c 


void test (int elems ； int stride) The test hmction */ 


int i, result = 0; 
volatile int sink ； 


for (i 


0; i 


elems 
data [i] 

/* So compiler doesn't optiinize away the loop * / 


stride) 


< 


result 

sink = resul 


+= 




10 


/* Run test ( elems > stride ) and return read throughput ( MB / s ) *( 

12 double run(int size, int stride, double Mhz) 


11 


13 


14 


double cycles; 

inL elems = size / sizeof(int) 


15 


16 


17 


testtelems, stride )； 


/* warm up the cache 〜 

cycles = Ecyc2 (test, elems, stride, 0) ； i * call test ( e 1 ems , stride ) 
return C^ize / stride] / (cycles / Khz); convert cycles to MB/s */ 


18 


19 


20 


code/mem/mouniain/mo un tain, c 


6.40 测置和计算读吞吐率的函数 
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test 函数通过以少长 stride 扫描整数数组的头 elems 个元素来产生读序列^ run 函数是-个包装 
函数 （ wrapper ), 它调用 test 凼数，并返同测董出的读吞吐率 D 第18行的 fcyc 2 函数（没有显氺出 
宋）估计了 test 函数的运行时间，以 CPU 周期为申-位，使用的是第9章中讲述的 K 次黾优 （ K 如 st ) 
测最方法。注意， 

位的。另外，注意第19行将 MBA 计算为10 6 字节/秒，而不是2 20 字节/秒。 

函数的参数 size 和 stride 允许我们控制产生出的读序列的局部性程度。 size 的值越小，得 
到的丄作集越小，因此时间局部性越好。 stride 的值越小，得到的空间局部性越好。如果我们反复 
以不同的 size 和 stiide 值调用 run 函数，那么我们就能覆盖读带宽的一个时间和空间局部性的二 
维凼数，称为存械器山 （memory mountain )□ 图641展 示了个 称为 mountain 的程序，它生成存 
储器山。 


函数的参数 size 是以字节为单位的，而 lest 函数对应的参数 eleim 是以字为单 


run 


run 


code/mem/moumo in/mo untain.c 


#include <stdio.h> 

ttinclude 11 fcyc2 *h 1! K-best measurcmenl timing routines */ 
#include 11 clock, h 11 /* routines to access the cycle counter */ 


1 


2 


3 


4 


#define M1NBYTES (1 
♦define MAXBYTES {1 

#define MAXSTHIDE 16 


10 ) 卜 Working set size ranges from 1 
23 ) /* … up to 8 MB */ 

卜 Strides range from 1 to 16 

#define MAXELEMS KAKBYTES /sizeoflint) 




I4E 


« 


6 


« 


8 


10 int data[MAXELEMS:; 


/* The array we’ll be traversing */ 


11 


12 int main () 


13 


14 


int size; 
int stride; 
double Mhz : 


/ 本 Working set size (in bytes) */ 
/* Stride (in array elements) 
Clock frequency 


15 


16 


17 


IS 


imt_datdidats, MAXELEMS) 
Mhz = mhz 〔 0); 
for [size 

for (stride 

printf ( ，％ .lf\t 


/* Initialize each element in data to 1 V 
/* Estimate the clock frequency */ 

MIMBYTES; size »= 1) { 

1； stride <= MAXSTRIDE; Stride++) [ 

run(size, stride, Mhz) )； 


19 


20 


MAXEYTES; size 




>= 


21 




22 


23 


24 


printf( M Vn 1 ); 


25 


26 


exit: (0 )； 


27 


code/mem/mo uut&in/mo untain. c 


6-41 mountain : 


一个生成存储器山的程序 
mmintain 程序以不同的工作集大小和步长调用扣!!函数工作集大小从 1 KB 幵始，每次增加一 


㈢ 
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I 


^filJf , J 上时斜坡 
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对于大小最大为 256 KB 并包括 256 KB ， 工作集完全能放进 L 2 统一卨速缓存中。冉人的丄作集 

主要就由主存来服务了。 256 KB 〜 512 KB 之间读吞吐率的下降很有趣。因为 L 2 高速缓存是 512 KB , 

我们可能会预 测卜降 出现在 512 KB 处，而不是 256 KB 处。要确认的惟一方法就是进行一次洋细的 

高速缓冇模拟 + 不过我们怀疑原因在于 Pentium III 的 L 2 卨速缓存是一个统一的商速缓存，既保存 

指令又保存数据。我们可能会看到的是 L 2 中指令和数据之间的冲突不命+的结果，它使得不能将 
整个数组都放到 L 2 高速缓存中 t 

以相反的方向横切这座山，保持1:作集大小不变，我们从中能看到空间局部性对读吞吐率的影 
响□例如，图644展示了 [:作集人小固定为 256 KB 时的片段，这个片段是沿若图 6.42 中的 L 2 山脊 
切的，这里，丄作集完伞能够放到 L 2 高速缓存中，但是对 L 1 高速缓#宋说太人 

注意随着步长从1个字增长到8个字，读吞叶.率是如何平稳地下降的。在11』的这个冈域中 
中的读不命屮会导致 个 块从 L 2 传送到 L 1。 取决于步长，后面在 L 1 中这个块上会有■定数暈的 
命中。 随着步长的增加， L 1 不命中与 L 1 命中的比值也增加了。因为不命中服务起来要比命中慢一 
赀，所以读吞叶.率也下降 G —旦步长达到了 8个字，在这个系统 h 8个字就等下块的人小了，每 
个读请求在 U 中都会不命中，必须从 L 2 服务。因此，对于步长至少为8个字的读#吐率是一个常 
数速率，是由从 L 2 传送卨速缓存块到 L 1 的速率决定的 4 

总结一下我们对存储器山的讨论，存储器系统的性能不是一个数字就能描述的。相反，它是一 
座时间和空间局部性的山，这座山的卜_升卨度差别可以超过一个数暈级，明智的稈序员会试图构造 
他们的程序，使得程序运行在山峰而不是低谷。口标就是利用时间局部性，使得频繁使用的字从 LI 


L 1 


CJ T 

工作集大小节） 

6 , 43 存储器山中时间局部性的山脊 




o 

T ~ 


这幅图 展示了 BU .42 中 stride=l 时的■个片段, 


200 


如果我们从这座中取出个片段，保持步长为常数，如图6.43,我们就能很清楚地着到卨速 
缓冇的大小和时间局部性对性能的影响 G 对于人小最人为 16 KB 并包括 16 KB , T . 作集完全能放 
进 IJicache 中，因此，呑吐率峰值1 GB / s 处，读部是由 L 1 来服务的。 


1200 丁… 


U 毵速缓存屄域 


主存储区域 


1000 
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^2]b\\ + ^ 22^21 
^21^12 + 


(■21 




(22 






矩阵乘 ii 函数通常 ft 用三个嵌套的循环米实现的，分别用索引分别是 i 、 j 和 k 来細识。如果我 
们改变循环的次序，对代码进行些其他的小改动，我们就能得到轧阵乘法的六个在功能上等价的 
版本，如图6,45所示。每个版本都以它循 环的嘱 序来惟一地标识。 ( 


code/mem/matmult/mmx 

i++] 

n ； j'+) { 


1 for (i = 0 ； i 

2 for (j 


i < n ； 


0; j 


< 




sum 


4 


for [k - 0 ； k < n ； k++) 

A[i] [k]*B[k] [j] 

sum; 


sum += 


C[i] [j] 


codeMem/matmult/mm. c 


(a) (/大版本 


code/mem/matmult/mm. c 


for (j 


Of j < n 

D; i 


2 


for (i : 

sum 


n; i++) { 


l < 


for (k = 0; k 


n; k 十十 ) 

A[i] [k]-B[k] [j]; 


< 


stun += 


C[i] [j] 


+ = sum ； 


code/mem/matmult/rnm. c 


t b) jik 版本 


code/mem/matmult/mrn. c 


foi (j = 0; j < n ； j++] 

for [k = 0; k 

r = B[k][j] ； 

fcr {i = 0; i < n; i++) 

C[i] [j] += Mil [k]*r ； 


n; k++) { 


< 


code/mem/matmult/rnnLc 


版本 


code/mem/mamu U/mm. c 
n; k++) 

for (j - 0; ： < n? j+ 十 ) { 

B[k][j ]； 

for (i = 0 ； i c n; i 十十） 


for (k = 0; k 


< 


2 


r 
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c[i][j] += A[i] [k] 


r; 


code/m€f^matmult/mm.c 


(d ) 明版本 


code/mem/matmutt/mm. c 
n? k++) 


for (k = 0 ； k 

for ii 


p 


< 


0 


n; i+ 十 ） { 




=All][ki ； 
for (j = 0; j < n; j++) 

r*B [k][ j ]; 


r 


4 


C[i] [j] 


5 


十 = 


code/rnem/matmult/mm^c 


(e ) 时版本 


code/fnem/ftiatmult/mtn^ c 


for (i 


0 ； i < n ； i++) 
for (k = 0; k 

r - A[i][k]; 

for (j 




2 


n; { 


< 


3 


C[i] [jl 


r + B[k ； [j]; 


codeAnemArntmult/mm c 


(f) /jy 版本 


6.45 矩阵乘法的六个版本 


£.< 


在高层来看，这六个版本是非常相似的。如果加法是可结合的，那么每个版本计算出的结果完 
全一样\每个版本总共都执行 0( n 3 ) 个操作，而加法和乘法的数量相同 A 和 B 的 n 2 个元素中的每 
一个都要读 ii 次 。计算 C 的个元素中的每一个都要对 n 个值求和。不过，如果我们分祈最甩层循 
环迭代的行为，我们发现在访问数量和局部性上还是有区别的 t 为了这次分析的目的，我们做了如 


下假设 


每个数组都是一个 double 类型的 nxn 的数组， sizeof ( double ) -8^ 

只有一个高速缓存，其块大小为32字节 （B = 32), 

数组大小 ii 很大，以至于矩阵的一行都不能完全装进 L 1 高速缓存中。 

编译器将局部变量存储到寄存器中，因此循环内对局部变量的引用不需要任何加载或存储 


指令。 


图646总结了我们对循环的分析结果。注意六 个版本 成对地形成了三个等价类，用最内 M 循环 
中访问的矩阵对来表示每个类*例如，版本 ijk 和 jik 是类 AB 的成员，因为它们在最内层的循环中 
引用的是矩阵 A 和 B (而不是 C )。 对于每个类，我们统计了每个内层循环迭代中加载（读）和存 


2 £ 如我们在第 2 章中学到的 1 浮点加法是可交换的，但是通常不是可结合的， . 实际上，如果矩阵不把极大的数和极小的教 
混在一起 —— 存储物理 1 性的矩阵常常这样，那么假设泮点加法是可结合的也是合理的 


10 


25 
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6.47 Pentium III Xeon 矩阵乘法性能 


图例： tji 和 jti ; 类 AC : tij 和 ikj : 类 bg ijt 和 j 化： 类 AB 







第 6 章 


442 


储（写）的数量，每次循环迭代中对 A、B 和 C 的引用在高速缓存中不命中的数最，以及每次迭代 
高速缓存不命中的总数， 

类 AB 例程的里 M 循环[图 6.45 ( a ) 和 （b) 1以步长1扫描数组 A 的一行 s 因为每个髙速缓#块 
保存四个双字， A 的不命中率是每次迭代不命中 0.25 次。另一方面，串循环以步长 n 扫描数组 B 
的一歹 L。 因为 n 很人，每次对数组 B 的访问都会不命中，所以每次迭代总共会有 1.25 次不命中。 


矩阵乘法販 I 加®每 S 存慵毎次 A 不余中毎次 B 不命中毎次 C 不命中毎次 总不命中每次 

迭代使用的迭代使用的 迭代使用的 迭代使用的 迭代使用的 迭代使用的 


ijk Sc jik (AB) 
jki & kji (AC) 
kij&ikj {BQ 


0,25 


0.00 


1,25 


0.00 


0.25 


0,25 


().50 


6.46 矩阵乘法里层循环的分析 


it 


六个版本分为-'个等价类，以里层循环中访 N 的数组对来表 


类 AC 例程的里层循环[图 6.45 (c) 和 （d) 1有一些 H 题。每次迭代执行两个加载和一个#储 
(相对于类 AB 例程，它们执行2个加载而没有存储第―甲_层循环以步长 ri 扫描八和(：的列。 

结果是每次加载都会不命中，所以每次迭代总共有两个不命中。注意，弓类 AB 例程相比，交换循 
环降低了空间局部性。 

BC 例程[图 6.45 (e) 和 （f) 〗展示了一个很有趣的 折中： 使用了两个加载和1存储，它们比 
AB 例程多需要 个 存储器操作 D 另一方面，因为里层循环以沙长 U 方问模式扫描 B 和 C 的列，每 
次迭代每个数组上的不命中率只有0,25次不命中，所以每次迭代总共有 0.50 个不命中= 

6.47 小结了一个 Pentium III Xeon 系统上矩阵乘法各个版本的性能。这个图 W 出/每次里 M 
循环迭代所需的测鼋出的 CPU 周期数作为数组人小 （ n ) 的函数。 
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对于这幅图有很多有意思的地方值得注意： 

• 对 于大的 n 值，即使每个版本都执行相同数量的浮点算术操作，最快的版本比最慢的版本 
运 行得快=倍。 

• 存储器访问数里和局部性都相同的版本，有大致 相冋的 测章性能。 

• #储性能最糟糕的两个版本，就每次迭代的访问数量和不命中数量而 f , 明显地比其他叫 
个版本运行得慢 ， 其他四个版本有较少的不命中次数或者较少的访问次数，或者兼而有之 。 
•类 AB 例程——每次迭代有2个存储器访问和 1.25 次不命中——在这种机器上运行得比类 
BC 例程——每次迭代3个存储器访问和 0.5 次不命中——要好一点，后者用一个额外的存 
储器访问来换取较低的不命中率。要点就是对于性能来说，髙速缓存不命中率并不是问题 

的全部。存储器访问的数量也很重要，而且在许多情况中，找到最好的性能就是要在这两 
者之间做出权衡。练习题6,32和 6.33 更深入地论述了这个问题 e 

6.6.3 使用分块来提高时间局部性 

在上一节中，我们看到一些很简单的循环重新排列是如何能够提高空间局部性的。但是我们也 
看到，即使使用很好的循环嵌套，每次循环迭代的时间都随着数组大小的增长而增长。发生的事倩 
是这样的，当数组大小增加时，时间局部性降低了 ， 而高速缓存中容暈不命中的数目增加了。为了 
改正这个问题，我们使用了一种普通的称为分块 ( blocking ) 的技术。不过我们必须指出，与那些 

为了提高空间局部性的简单循琢变換不同，分块使得代码更难阅读和理解。因此，它最适合于优化 
编译器或者频繁执行的库例程。不过学习和理解这项技术仍然是很有趣的 t 因为它是一个能够产生 
巨大性能收益的很普通的概念. 

分块的大致思想是将一个程序中的数据结构组织成称为块 （ block ) 的组块 ( chunks ) , (在这个 

上下文中，“块”指得是一个应用级的数据组块，而不是高速缓存块 & )这样构造程序，使得能够将 

一个块加载到 L 1 髙速缓存中，并在这个块中进行所需的所有的读和写，然后丢掉这个块，加载下 
一个块，依此类推 & 

分块一个矩阵乘法函数是这样进行的，将矩阵划分成子矩阵，然后利用可以像标童一样处理子 
矩阵这个数学依据。例如，如果 n = 8, 那么我们可以将每个矩阵划分成四个 4 x 4 的子矩阵： 


Q 1 Qz 
^21 ^22 


Al 1 ^12 

A 21 j4 22 ^21 ^22 


这里 


C lt 


A\iBn 

+ A22B21 
木1忍12 + ^22^22 




C , 2 




21 


22 


图 6.48 展示了矩阵乘法的一个分块版本，我们称之为 bijk 版本 □ 这段代码背后的基本思想是将 
A 和 C 划分成1 x bsize 的行条 (row slivers)， 将 B 划分成 bske x bsize 的块。最内层的 （j，k) 循 

环对用 B 的一个块去乘以 A 的一个行条，将结果放到 C 的一个行条中。用 B 中同一个块， i 循环迭 
代通过 A 和 C 的 n 个行条 . 
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code/mem/matmult/bmmc 


void bijk(array A, array B, array C, int n, int bsize) 




3 


int i, j, kp kk 


: U } 


4 


double sum ； 

int en 二 bsize 


(n/bsi 2 e); f* Amount that fits evenly into blocks V 


5 


* 


6 


for ii 


7 


n; i + + ) 

£or (j = 0; j < n ； j 十十 1 

Cli] [j] = 0,0; 


1 < 


10 


11 


for (kk = 0; kk 

for (jj = 0 ； jj 

for (i 


en; kk += bsize} { 

< en ； jj + 二 bsize) { 

0; i < n ； i-h+) { 

j j; j < j j + bsize ； j 十十 ) { 

=Cli] Ej] r 

for (k = kk ； k 

sum 十二 A[i][k]*B[k][j] 


< 


12 


13 


14 


for (j 

sun 




lb 


16 


kk + bsize; k++) { 


17 


18 


C[i] [j] 


19 


sum 


20 


21 


22 


23 


24 } 


code/mem/matmult/bmTn r c 


6.4 S 分块的矩阵乘法 




ii 个简申的版本假设数组大小 （ n) 是块大小 (bsize) 的整数倍。 


图6,49给出了图 6.48 中分块代码的一个图形化的说明，关键思想是它加载 B 的一个块到卨速 
缓存中，使用它，然后丢弃它。对 A 的引用有很好的空间局部性，因为是以步长1來汸问每个行条 
的。它也有很好的空间局部性，因为是连续 bsize 次引用整个行 条的。 对 B 的引用有好的时间局部 
性，因为是连续 ii 次访问整个 bsize x bsize 块的。最后，对 C 的引用有好的空间局部性，因为行条 
的每个兀素是连续写的。注意对 C 的引用没有好的时间局部性 t 因为每个行条都只被访问一次。 


kk 


rp || |_1 獅 | /p I 

I' i ^ I' 


A 


& 


C 


连续 n 次使用 
bsize x bsi^e 的块 

图 6.49 分块的矩阵乘法的图形化说明 

g 内层的 CM) 循环对用 B 的一扣 Xhte 的块去朵以 A 的 个 Uii 如的 行条 . 将结果放到 C 的一个的行条中 


bsize 次使用 1 X bsize 行条 
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7 综合： 利用程序中的局部性 


正如我们看到的，存储系统被组织成一个存储设备的 M 次结构，较小、较快的设备 f 近顶部， 
较大、较慢的设备靠近底部 D 由 f 这种层次结构，程序访问存储位置的有效速率不是一个数字能描 
述的 。 相反，它是一个变化很大的程序 w 部 n 的函数（我们称之为存储器山）.变化可以有几个数 t 
级。有良好拭部性的程序从快速 U 和 L 2 高速缓存存储器中访问它的大部分数据。周部性差的秤序 
从相对慢速的 DRAM 主存中汸问它的大部分数据. 

理解#储器层次结构本质的程序员能够利用 这挫知 识，编写出更冇效的程序，无晗具体的存储 
系统结构是怎样的。特别地.我们推荐下列 技术： 

• 将你的注意力集中在内部循环上，大部分计算和存储器访问都发生在这 
• 通过按照数据对象存储在存储器中的顺序来读数据，从而使得你程序中的空间局部性最大, 
• 一 旦从存储器中读入了 个 数据对象，就尽可能多地使用它，从而使得你程序中的时间兄 

部性最大。 

• 记住，不命中率只是确定你代码性能的一 个因素 （虽然是重要的）。存储器沾问数鼋也扮演 
着重要角色，有时需要在两者之间做一下折中 。 


6.8 小结 

基本存储技术包括 RAM (隨机存储器 h ROM (非易失性存储器）和磁盘。 RAM 有两种基本 
类型。 SRAM (静态 RAM) 快一些，但是也贵一些，它既叫以用做 CPU 芯片 L 的髙速缓存，也可 
以用做芯片外的高速缓存。动态 RAM (DRAM) 慢一点，也便寅一®，用做主存和图形帧缓冲 K。 
非易失性存储器，也称为只读存储器 (ROM), 即使是在关电的时候，也能保持它们的信息，它 ff] 
用来存储固件 (firmware). 磁盘是 f 易失性存储设备，以每个位很低的成本保存大量的数据，代价 

是较长的访问时间。 

一般而 S, 较快的存储技术每个位会更贵，而 fl 容量较小。这些技水的价格和性能属性汜在动 
态地以不同的速度变化着。特别地， DRAM 和磁盘访问时间滞后于 CPU 周期 时间， 系统通过将# 

储器组织成存储设备的层次结构来弥补这些楚异，在这个层次结构中，较小、较快的设备在顶部， 
较人、较慢的设备在底部。因为编写良好的程序有好的周部性，人多数数据都町以从较苟层 3 得到 
服务，结果就是存储系统能以较高层的速度运行.但卽有较低层的成木和容暈。 

程序员可以通过编写有良好空间和时间局部性的程序来动态地改进程序的运行时间。利用基于 
SRAM 的高速缓存存储器特别重要，卞要从 Lt 卨速缓存取数据的程序能比主要从存储器取数据的 
裎序运行得快过一个数量级。 

参考文献说明 

存储器和磁盘技术变化得很快。根据我们的经验，最好的技术信息来源是制造商维护的 Web 奴 

面。像 Micron、Toshiba、Hyundai、Samsung、Hitachi 和 Kingston Technology 送样的 公司* 提供 / 

丰富的 :^前 有关存储设备的技木信息。 IBM、Maxtor 和 Seagate 的页1也提供/类似的冇关磁盘的 


3指存储器山屮的层次。——译者 
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有用信息 


XT 电路和逻辑设计的教科书提供了关 f 存储技术的详细信息 [39, 62 ]。 IEEE Spectrum 出版了 
一 系列对 DRAM 的概 述文章 [36] 。计算机体系结构国际会议 （ ISCA ) 是-个关于 DRAM #储性能 
特性的公共论坛[22, 23 J 。 

Wilkes 写了第-篇关于高速缓存存储器的论文 [87], Smith 写了一篇经典的综述〖72], Przybylski 
编写了_ '本关 F 高速 缓存设 计的权威著作[591。 Hemiessy 和 Pat 咖 on 提供了对高速缓存设计问题的 
全面讨论[33]。 

Strieker 在 [82] 中介绍了存储器山的思想，作为对存储器系统的全面描述，并 R 在汩来的工作描 
述中提出了术语“存储器山 ' 编译器研究者通过自动执行我们在 6.6 节中讨论过的那些手工代码转 
换，来增加局部性 [14, 25, 45, 48, 34, 60, 89]。 Carter 和同事们提出 了一个 可知晓高速缓存的存 
储控制器 (a cache-a ware memory tontr oiler ) [ ll] e Seward 汁发了一个开放源代码的尚速缓存剖析程 
序，称为 cacheprof ， 它描述了 C 程序在任意模拟的高速缓存上的不命中行为 （ www . cacheprof . org )。 

关于构造和使用磁盘存储设备也有大量的论著，汴多存储技术研究者找寻方法，将单个的磁盘 
集合成更大、更健壮和更安全的存储池 [12, 28, 29, 57, 90]。 其他研究者找寻使用高速缓存和局 
部性来改进磁盘访问性能的方法[6, 13] 6 像 Exokemd 这样的系统提供了更多的对磁盘和存储器资 
源的用户级控制 [38] 4 像安德 t 文件系统 [53〗 和 Cod a [67] 这样的系统，将存储器层次结构扩展 到了汁 
算机网络和移动笔 E 本电脑。 Schindler 和 Ganger 开发了一个有趣的工具，它能自动描述 SCSI 磁盘 
驱动器的构造和性能 〖68]。 


家庭作业 

6.20 ♦♦ 

假设要求你设计一个每个磁道位数固定的磁盘.你知道每个磁道的位数是由最里层磁道的周长 
确定的，你可以假设它就是中间那个圆洞的周长9因此，如果你把磁盘中间的洞做得大一点，每个 
磁道的位数就会增大，但是总的磁道数会减少。如果用 r 来表承盘面的半径， 

那么 i 取什么值能使这个磁盘的容量最大？ 


表示圆洞的半径， 


x r 


6.21 


F 面的表给出了 ■■些不冋的髙速缓存的参数 & 确定每个高速缓存的髙速缓存组数量 （幻 、标记 
位数 U )、 组索引位数 （ j ) 以及块偏移位数 （6 X 




32 


1014 


6.22 ♦ 

这个问题是关于练习题 6.9 中的高速缓存的 I 
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A . 列出所有会在组1中命中的十六进制存储器地址; 

B , 列出所有会在组6中命中的十六进制存储器地 hh 。 

6,23 ♦♦ 

考虑下面的矩阵转置函数 r 

1 typedef int array[4|[4]; 


void tranapose2(array dst, array srcl 


for (i = 0 

for (j =0; j <4 ； j 十十 > ( 

dst [ j: [i] = src[i] [ j]; 


4; i 十十 1 ( 


10 


12 


假设这段代码运行在一台具有如 卜属 性的机 器上: 


sizeof(int) = 4 


. 数组 src 从地址0开始，而数组 dst 从地址64开始（十进制）， 

• 只有…个 U 数据高速缓存，它是直接映射、直写、写分配的，块大小为16字节， 

• 这个卨速缓存总共有32个数据字节，初始为空。 

• 对 src 和 dst 数组的访问分別是惟的读和写不命中的朿源。 

对于每个 row 和 col ， 指明对 src [ row 】[ col ] 和 dst [ rw ][ col 〗 的访问是命中 （ h ) 还是不命中 （ m ) 
例如，读 src [0][01 会不命中，而写 dst [0][0】 也会不命中。 


dst 教组 


■■■■■■ 


src 教组 


IHHH 


行0 
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6.24 44 

对千一个总大小为128数据字节的高速缓存.重复练习题6.23。 


t 败里 


列0 列1 列2 列3 


行0 


行 1 


行2 


n 3 


SfC 数组 

列 0_ f 列】1列2 i 列3 


行0 


行 1 


行2 


行 3 


6,25 


3 M 决定在白纸上印黄方格，做成小贴纸。这个过程中，他们需要设置方格中每个点的 CMYK 
(蓝色，红色，黄色，黑色）值。 3 M 雇佣你判定下面算法在〜个2048字节、盲接映射、块大小为 
32字节的数据卨速缓存上的有效性 ，有如 F 定义： 


1 


struct point_colar { 

int c; 
int m; 

int y ； 


2 


int k 


struct point_color square[ 16 ]( 16 ]; 
int i, i; 


有如下假设 


• sizeoffint ) -- 4 


* square 起始于存储器地址 0, 

• 高速缓存初始 为空。 

• 惟一的存储器访问是对于 square 数组中的元素。变量 i 和 j 被存放在寄存器中 & 
确定 > 列代 码的髙速缓存 性能： 


for (i = 0; i < 16 ； i++){ 

for (j = 0; j < 

square[i1[jl 


16; j ++ ) { 


0 
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[i][] 

square[i:[j]= 1; 

square!i::j1,k = 0: 


0; 


4 


m 


scuaro 


A. 写总数是多少？ _ 

B. 在高速缓存屮不命中的写总数是多少? 

C. 不命中率足多少？ _ 


6.26 


给定练习题 6.25 中的假设*确定卜_列代码的岛速缓#性能: 


(i = 0; i < 16; { 

Ecr (j 


OI 


0; j <16; j f+) { 
square[j] [ i]-c = C ; 
square [] ] [i] .in = C ; 
square[i]1i]= 1; 

square [:] [i] *k = 0 : 




A. S 总数是多少？ 

B. 在岛速缓存中+命中的写总数是多少? 

C+ 不命中率是多少？_ 


6.27 


给定练习题 6.25 中的假设，确定卜列代码的高速缓冇 性能: 


for (i = 0 ； 

Cor (j 


16 ? i + + ) 


16; j+ + )[ 

squareii]Ij].y = 1; 


0 ； j 


for (I = 0 ； i < 16; i + +) { 

0 ； j 

square[ij [j : 乂 

square [ i ][ j ] 
square[i][j]-k = 0; 


foi (j 


< 


0; 


t '? 


TT 1 


10 


12 


A. ¥ 总数是多少? 


B. 企岛速缓存屮不命中的写总数足 多少? 

C. /、命中率是多少？ 
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6.28 ♦參 

你正在编写一个新的 3 D 游戏，希望能名利双收。你现在 fF 在写-个函数，在画 r - ■帧之前先 
清空屏幕键冲区。你现 dn ： 作的屏幕是 640 X 480 像素數组的。你 J : 作的机器有一个 64 KB 直接映射 
高速缓存，每行4个字你使用的 C 数据结构为 ： 


struct pixel { 

char r; 
char g ； 

char b ； 
char a ； 


2 


}; 


struct pixel buf f er j ； 4&0] [6401 ; 


8 


ivit i , 」； 


9 


10 char *cptr ； 

11 irtL *iptr; 


有如下假设： 

• sizeof ( char)=l 和 sizeof ( int )==4。 

• buffer 起始于存储器地址 - 
• 卨速缓存初始为空。 

• It - 的存储器存问是对于 buffer 数组中的元素。变量 i 、 j 、 cptr 和 iptr 被存放在寄存器中 
下面代码中百分之多少的写会在高速缓存中不命中 

0; j < 640 ； j + + ] { 
for (i 二 0 

buffer[i][j],r = 0 
buffer [il [j Kg = 0 
buffer[i][]],b = 0 

buffer[i][j] 


? 


for (j 




480? i++){ 


4 


5 


a 


6,29 ♦命 

给定练题 6.28 中的假设，下面代码中百分之多少的写会在髙速缓存中不命 


char *cptr 
for (； cptr 

*cptr ^ 0; 


(char *) buffer; 

{((char *) buffer) 




640 


★ 


480 


4i ； cptr+ + ) 


女 


< 


十 


6.30 ♦參 

给定练习题 628 中的假设，下面代码中百分之多少的写会在高速缓存中不命中? 


(int ” buffer ； 

for (； iptr < (( inz *)buf£er + 640*480 ) ; iptr-v + ) 

*iptr = 0; 


2 


6-31 ♦♦命 

从 CS : APP 的网站上下载 mountain 程序，在你最喜欢的 POLinux 系统上运行它。根据结果估 
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计你系统上 L 1 和 L 2 髙速缓存的大小。 


6.32 ♦♦ 令 ♦ 

在这项仟务中，你会把你在第5章和第6章中学习到的概念应用到一个存储器使用频繁的应用 
的代码优化问题卜_。考虑一个拷贝并转置 一 个类型为 int 的 NXN 矩阵的过枵。也就是，对于源矩阵 
S 和口的矩阵 D ， 我们要将每个元素~拷贝到\只用一个简单的循环就能实现这段代码 r 


void transpose! ini, *dst, int 


int dim) 


src 


I 


int i, j ； 


for (i 


C ； i < dim; i+ 十） 

j < dim ； j++) 

i] = src[:*dim 


for (j 


0 




w 

t 


dst[j *dim 


8 


这甲 .， 过程的参数是指向 H 的矩阵 ( dst ) 和源矩阵 ( src ) 的指针，以及矩阵的火小 N ( dim ), 

要想使得这段代码运行得快，需要两种优化。自先，虽然函数在利用源詉阵的空间局部性[:做得很 

好，但是它对大的 N 值的0的矩阵却做得 很差。 其次， GCC 产生的代码不是非常有效率。看看汇 

编代码^我们知道其中的循环需要10条指令，其甲有5个会引用存储器-个引用源矩阵，一个 

引用口的矩阵，时二个从栈中读局部变量。你的工作就是解决这些问题 T 设计一个运行得以可能快 
的转置函数。 


633 ♦ 令 ♦♦ 

这项作业是练习题6+32的个有趣的变体。考虑将一个有向图 g 转换成它对应的无向图 
条从顶点 u 到顶点 v 的边，仅当原图 g 屮有 -条 0 到 v 或者 v 到 u 的边。图 g 是屮如 K 

的它的邻接矩阵 （adjacency matrix ) G 表示的 。 如果 N 是 g 中顶点的数量，那么 G 是一个 NXN 的 
矩阵，它的兀素是全0或者全 h 假设 g 的项点是这样命 名的： 

到 Vj 的边，那么为1,否则为0。注意，邻接矩阵对角线上的元索总是1,时无向阁的令; J 接矩 
阵足对 称的。 只用个简笮的循坏就能实现这段 代码： 


那么 如采有 条从 v 3 


: v 0 ， v ■ ， … ， V N -| 


c 


void col_convert (int int dim) { 


int i, j ； 


for (i 二 C; i < dim ； i++) 

dim ； j+4 - ) 


for (j = 0 ； j < 

G[j*dim + i] 


G[j 士 dim + i ] || G [i + dim + j ； 


你的丄作是设 it 一 个运行得尽可能快的凼数。同前面一样，要吳出 -- 个好的解答，你需要应用 

你在第5章和第6章中所学到的概念。 

练习题答案 

练习题 6.1 答案 

逸里的思想是 通过使 纵横比 max < r , cVmiii ( r t c > 最小，使得地址位数最小，换句话说，数组越接近 
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于正方形，地址位数越少。 


mmmmmgm 

■■9 DHHWMEH 

■■MBBUBm 


组织 


16 x 


m 


512 x 


1024 k 


32 


32 


练习题 6.2 答案 

这个小练习的主旨是确保你理解柱面和磁道之间的关系，一旦你弄明 fl 了这个关系，那问题就 


很简单了 


5\2bytes 

~lector 


to 000 tracks Isurf^fi Iptattm 

piarttf^ - 乂 di^c ^ 


: [0 


Dak 


sectors 
track ~ 


X 


capacity 


surface 


= 8192000000 ^5 
= 8.192G5 


练习题 6.3 答案 

对这个问题的解答是对磁盘访问时间公式 的苠接 应用。平均旋转时间（以 ms 为单位）为 


= U 2 xT 


T 


avg Tvtadon 


rotation 


=1/2 x (60 secs/15 000 RPM ) x 1000 ms/sec 


2 ms 


平均传送时间为 


T 


- ( 60secs/15 000 RPM) x 1/500 sectors /track x 1000 ms/sec 


avg transftr 


0.008 


Sift 


总地来说，总的预计访问时间为 


^accm ~ ^avgsetk ^ ^tvg n ? 帥伽 + ^tvg transfer 

= 8 jvu + 2 #nj + 0,008 


10 




练习题 6.4 答案 

为了创建一个步长为 1 的引用模式，必须改变循环的次序，使得最右边的索引变化得最快 

1 int suitiarray3d(int ^[N] [N] [N]) 


Cr 


sum 


for (k = 0 ； k < N; k+~M { 
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W? i++l I 


for [i 


0 


■ 

i 


< 


■ 




W ; j ++) { 


for [j = 0;] 


< 




日 U]T1 +- 


10 


11 


12 


return surr ：； 


■n 


这是一个哏電要的思想 6 要保证你理解 f 为什么这种循环次序改变就能得到一个步长为 i 的访 


14模忒 


练习题 6.5 答案 

解决这个问题的关键在于想像出数组是如何在冇储器中排列的，然后分折引用模式。病数 clearl 
以步长为1的引用模式访问数组，0此明显地具有最好的空间局部性 □ 函数 clear2 依次扫描 N 个结 
构屮的每一个，这是好的，但是在每个结构屮，它以步长不为1的模式跳到卜 列相对 于结构起始位 
置的偏移处： 0、12、4、〗6、8、20。所以 clear2 的宁间局部性比 clearl 的要差。函数 clear3 不仅在 
每个结构中跳来跳去，而 H. 还从结构跳 S」 结构，所以 dear3 的空间 M 部性比 clear2 和 clearl 都要宠。 

练习题 6.6 答案 

这个解答是对阁 6.26 屮各祌髙速缓介参数定义的直接应用。不那么令人兴奋，但是朴你能 KiF- 
理解 R 速缓存是如何丁作的你羔要理解高速缓存的结构是如何导致这样划分地址位的。 


wmsaBHOB 


32 


24 


32 


1024 


32 


1024 


32 


32 


练习题6,7答案 

填允消除了祌突不命中。因此，网分之=的引用是命中的 


练习题 6.8 答案 

有时候，理解为什么某种思想是不好的，能够帮助你理解为什么另•种是好的。这申.，我们看 

到的坏的想法是用高位来索引高速缓存，而不是用中间的位。 

A. 用 ft 位做索 | 儿每个连绶的数组组块 (chunk) 是屮之个块组成的，这电 t 足标 W 位数。因 

Jit, 数纟 R 头2个连续的块部会映射到组0,接下来的2 1 个块会映射到组1，依此类推。 

B+ 对于直接映射高速缓存 (S,EB，m) = (512 丄 32.32), 岛速缓存容量是312个32 T 节的块，每个 
岛速缓存行中有 t=18 个标记位。因此，数组中头个块会觖射到组0,接 K 来2 1!4 个块会映射到组 
L 因为我们的数组只由4096/32=512个块组成，所以数组屮所有的块都被映射到组0。因此， /i: 任 
何时刻，卨速缓存 至多只 能保存一个数组块，即使数组足够小，能够完全放到岛速缓#中。很明显， 
用岛位做索引小能充分利用高速缓存 s 
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练习題 6.9 答案 

两个低位是块偏移 （C0), 然后是=位的组索引 (CD, 剩下的位作为标记 (CT)； 


12 U 10 9 


6 


2 


0 


^― _■ ■_ ^― ■ 


练习题 6.10 答案 

地址： OxOE34 

A. 地址格式（每个小格 F 表示一个位) : 


12 11 10 9 


0 


^^■DiinnmDDnnDBoa^^^H 


CT a CT CT CT CT CT CT Cl Cl CE CO CO 


B+ 存储器 引用: 


参数 


高速缓存块偏移 （CO) 

髙速缓存绀索引 （a) 

m 

髙速缓存标 E (CT) 
高速缓存命中吗？ (wo 

^b 

髙速缓存返回的字节 


0 x 0 


0x5 


fe71 


OxB 


练习题 6.11 答案 

地址： OxODD5 

A, 地址格式（每个小格子表示一个位) 


12 II 10 


6 


cicicTTCrcTcrcrcTC ] 


cr ci co co 


B. 存储器引用 


鬥 


高速缓存块偏移 （CO) 

_ _ 

高速缓存组索引 （ a ) 
卨速缓冇标记 (CTi 

苒速缓存命屮吗 ？ (Y/N) 

卨速缓冇返回的字节 


0 x 1 


0x5 


0x6E 


N 


练习题 6/12 答案 
地址： 0xlFF4 

A, 地址格式（每个小格子表示一个位) r 
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cr 


存储器引用 


K 速缓存块偏移 ^ CO ) 

爲速缓存组索引 （ a ) 
高速缓存标 id ( CT ) 
高速缓存命中吗？ (Y/N) 
高速缓存返回的字节 


0x0 


(hi 


OxFF 


N 


练习題 6.13 答案 

这个问题是练习题6+9〜6,12的一种逆过程，要求你反向丄作，从高速缓存的内容推出会在某 
个组屮命屮的地址6在这种情况组3包含-个有效行，标记为0 x32。因为组中只有一个有效行 t 
四个地址会命中。这些地址的二进制形式为 OfMlOOlOOIlm 因此，在组3中命中的四个十六进制 
地址是： 0x064C > 0x064D > OxOfriE 和 0x064F 。 


练习题 6.14 答案 

A, 解决这个问题的关键是想像出图 6.51 中的图像。注意，每个高速缓存行只包含数组的一个 
行，高速锾存正好只够保存一个数组，而且对 T 所有的 i、src 和 dst 的行映射到 R —个高速缓存行= 
因为卨速缓存不够人，+足以容纳这两个数组，所以对一个数组的引用总是驱逐出另一个数组的冇 
用的行。例如，对办_[0]写会驱逐当我们读 src 隱 0] 时加载进来的那■忧所以，当我们 接卜来 
读 src[0]〖l’h 我们会有一个不命中。 


t 存 


src 


LineO 
Line 1 


dst 


6.51 练习题 6. M 的图 


dst 败组 


src 数组 


列0 列1 


列0 列】 


行0 


行1 


h 


B- 当卨速缓存为32字节时，它足够大，能容纳这两个数组。因此，所有的不命中都是开始时 
的冷不命中 D 
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ft 组 


src 败组 


练习 S 6.15 答案 

每个16字节的高速缓存行包含着两个连续的 algae.position 结构。每个循环按照存储器顺序访 
问这些结构，每次读一个整数元素。所以，每个循环的模式就是不命中、命中、不命中、命中，依 
此类推。注意，对于这个问题，我们不必实际列举出读和不命中的总数，就能预测出不命中率 。 

A . 读总数是多少？ 512个读. 

高速缓存不命中的读总数是多少？ 256个不命中。 

C 不命中率是多少？ 256/512=50%. 


练习題 6.16 答案 

对这个问1的关键是注意到这个高速缓存只能保存数组的所以，按照列顺序来扫描数组 
的第二部分会驱逐扫描第一部分时加载进来的那些行。例如，读 gridfI 6 U 0] 的第一个元素会驱逐当 
我们读 grid [0][0〗 的元素时加载进来的那一行 □ 这一行也包含 gricJ [0 Ml 】。 所以，当我们开始扫描 F — 
列吋，对 grid [0][ l ] 第一个元素的引用会不命中， 

A _ 读总数是多少？ 512 个读。 

髙速缓存不命中的读总数是多少？ 256个不命中。 

C + 不命中率是多少？ 256/512=50%, 

D + 如杲高速缓存有两倍大，那么不命中率会是多少呢？如果高速缓存有现在的两倍大，那么它 
能够保存整个 grid 数组，所有的不命中都会是开始时的冷不命中，而不命中率会是1/4=25%。 

练习題 6.17 答案 

这个循环有很好的步长为1的引用模式，因此所有的不命中都是最开始时的冷不命中。 

A . 读总数是多少？ 512个读， 

B . 高速缓存不命中的读总数是多少？ 128个不命中 

C . 不命中率是多少？ 256/512=50%. 

D . 如果高速缓存有两倍大，那么不命中率会是多少呢？无论高速缓存的大小增加多少，都不会 
改变不命中率，因为冷不命中是不可避免的。 


0 


练习题 6.18 答案 

这\问题只是检査你是否理解了我们的讨论。步长对应于空间局部性，工作集大小对应于时间 


局部性。 


练习题 6.19 答案 

A . L 1 的峰值吞吐率火约为1000 MB / s ， 而时钟频率大约为500 MHz 。 因此，访问 L 1 中的一个 
字大约需要 500/1000 X 44 个周期。 

B . 要佔计 L 2 的访问时间，我们需要确认存储器山上的〜个 g 域，其中每个引用都在 L 1 中不 
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命中，却在 L 2 中命中。特别地，我们想要这样一个 区域： ①工作集对 L 1 来说太大了，悒却在 L 2 
的范，之内 C 例如， 256 字 节)；： §) 步长超过了行的大小 （例 如，步长为16个字)。从## 器 山的罔 
中，可以观察到该区域（丁作集人小 =256, 步长 =16) 中 的有效 吞叶率大约为 300 MB / s 。 W 此， 我 
们估计从 L 2 中读个字需要大约 500/300 X 4=7 个周期。 

要佔 il •主存 的访问时间，我们看看山上那个罗 K 和工作集都最大的点，其中每个引用都在 L 1 
和 L 2 巾不命中。根据这幅图，这个冈域（丄作集大小 =8 M ， 步长 =16) 内的读吞吐率人约为 80 MB / s , 
因此，我们估汁从卞存中读出 个 字大约需要 500/80 X 4=25 个周期。 


第 2 部分 


在系统上运行程序 


续我们对计篝机系统的探索，进一步来 构建和运行程序的系统软件 Q 链 
接器把我们程序的各个部分联合成一个单独的文件，处理器可 W 将这个文件 

加载到存储器 （ memoiy ), 并且执行它。现代操作系统与硬件 合作了 力每个 

惹序提供一种幻像，好像这个程序是在独占地使阐处理器和主存.而获际上，在任何 
时刻，系统上都有多个程序在运行 P 因此，要想在这样的系统上获得准确的測试值， 
就需要敏锐的洞察力和 d \心的设计规划。 

在本书的第一部分，你很好地理解了程序和硬件之间的交互关系。本书的第二部 
分将拓宽你对系统的了解，使你牢固地筚握程序和操作系统之间的交互关系。你将学 
3到如何使用操作系统提供的服务来构建系统级程序，例如 Unix shell 和动态存储器 







i 


〜 ff^//^x^ 一 〆 



7」 编译器驱动程序 

7*2 静态链接 

7.3 目标文件 

7.4 可重定位目标文件 

7.5 符号和符号表 

7-6 符号解析 

77 重定位 

7.8 可执行目标文件 

7.9 加载可执行目标文件 
7.10 动态链接共享库 

7.11 从应用程序中加载和链接共享库 
7,12 * 与位置无关的代码 （ PIC ) 

7.13 处理目标文件的工具 
7.14 小结 
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464 


464 


465 


466 


469 


476 


481 


482 


483 


485 


487 


490 
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链接 ( linking ) 就是将不同部分的代码和数据收 f 和组合成为一个单一文件的过程，这个文件 
可被加栽（或被拷 W ) 到存储器并执打。链接可以执行丁编译时 （compile time ), 也就是在源代码 
被翻译成机器代 码时； 也吋以执行于加栽时 （load time ), 也就是在程序被加栽器 （ loader ) 加载到 
存储器并执行时；其至执行丁 运行时 （ nintime ), 由应用程序來执行 4 在早期的计算机系统中，链 
接是手动执行的 。 在现代系统中，链接是由叫做链接器 （ linker ) 的程序 S 动执行的。 

链接器在软件开发中扮演着一个关键的角色，因为它们使得分离编译 （separate compilation ) 成 
为町能 D 我们不用将•-个大型的应用程序组织为•个匕大的源文件， M 是可以把它分解为更小、更 
好管理的模块，可以独立地 f 改和编译这些模块。当我们改变这些模块中的一个时，我们只要简单 
地重新编抒它，并将它重新链接到应甲1:,而不必重 f 编译其 fe 文件。 

链接通常是甶链接器来安静地处理的，对于那些在编程入门课堂上构造小程序的学生 ifut , 链 

接不是一个重要的汉题。那为什么还要这么麻烦地学 习关？ 链接的知识呢？ 

• 理解链接器将帮助你构造欠型程序。构造人型稈序的程序员灶常会遇到山于缺少模块、缺少 
库或者不兼容的库版本弓 I 起的链接器错误。除非你理解链接器是如何解析引用.什么是库 
以及链接器是如何使用库来解析引用的，否则这类错误将令你感到迷惑和挫败. 

• 理解链接器将帮助你避免一些危险的编程错误。 Unix 链接器解析符号引用时所做的决定可 

以不动声色地影响你枵序的正确性。在默认情况卜，错误地定义多个全局变量的程序将通 
过链接器，而不产生任何警告佶息。由此得到的程序会产生令人迷惑的运行时行为，而且 
非常难以调我们将向你展小这是如何发生的，以及该如何避免它。 

• 理解链接将帮助你理解语言的作用域规则是如何实现的。 例如，全局和周部变暈之间的&:别 
是什么？ 3你定义一个具有静态属性的变量或者函数时，到底实际意味着什么？ 

• 理解链接将帮助你理解其他重要的系洗概念。链接器产生的可执行闫标文件在重要的系统功 

能中扮演着关键角色，比如加载和运行稈序、虚拟存储器、分页和存储器映射。 

• 理解链接将使你能够开发共享库 D 多年以来，链接都被认为是相 a 简单和无趣的。然而，隨 
着共享库和动态链接在现代操作系统中日益加强的重要性_链接成为了一个复杂的过程， 
它为知识丰富的稈序员提供了强大的能力 t 比如，许多软件产品使用共亨库在运打时来升 
鈒压缩包装的 ( shrink - wrapped ) 二进制稃序。还有 t 大多数 W e b 服务器都依赖 T •共享库的 
动态链接來提供动态内容。 

这一草提供了关于链接各方面的一个彻底的 U 论.从传统静态链接，到加载时的共皁库的动态 
链接，以及到运行时的共爭库的动态链接。我们将使用实际示例来描述基本的机制，而14我们将 i 只 
别出链接问题在哪些情况屮会影响你程序的性能和正确性，为了使描述具体和可理解，我们的讨论 
是基于这洋的坏境：一台 1 A 32 机器，上面运行着某个版本的 Unix ， 例如 Linux 或者 Solaris , 使用 
的是标淮妁 ELF H 标文件 格式。 然而，尤论是什么样的操作系统、 ISA 或者是 H 标文件格式_基本 

的链接概念是通用的，认识到这-点是很重 要的， 细 W 町能不尽相同，们是槪念是相冋的。 


7.1 编译器驱动程序 

考 tS 图7+1巾的 C 程序 。它包含两个源文件： main . c 和 swap + c 。 闲数 mainO 调用 swap , 它交换 
外部全局数组 buf 中的两个兀素。一般认为，这&一种奇怪的交换两个数字的方式，但是它将作为 
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贯穿本章的 -个小 的运行示例，來帮助我们说明关于链接是如何工作的一些重要知识点。 

大多数编译系统提供编译驱动程序 （ compilerdriver 乂它为用户，根据需求调用语 f 预处理器、 
编译器、汇编器和链接器。比如，要用 GNU 编译系统构造示例程序，我们就要通过在 shell 中输入 
下列命令行来调 ffl GCC 驱动 程序： 

gcc -02 


unix > 


-g -op jzi - c swap . c 


code/I ink/main. c 


I’ swap,c */ 

extern int buf []; 


code/Unk/main^ 


产 main.c 

void sv/ap () 


1 


int *bufpO = &buf[0 ]; 
int *bufpl? 


4 


int bu:[2] = {1, 2}; 


void swap () 


int ma^n() 


inL temp 


swap ()； 

return 0; 


10 


bufpl = &buf[1 ]； 

bufpO ； 
*bufpl ； 


11 


10 


12 


"emp 
*bufpO 

*bufpl = temp; 




codeAink/tminx 


13 


14 


15 } 


code/link/mainc 


( a ) maitui 


tb) sTvapx 


八 i 示例程序 i 


这个示例程序由两个源文件组成， maiic 和 swtipc , main 函教初始化一个两元素的整数数组，然 S 调闬 ^wap 由数来交换这一 


对数。 


7.2 概括了驱动程序在将示例程序从 ASCII 码源文件翻译成可执行目标文件时的行为 〆 如果 
你想自己看看这些步骤，用 - V 选项来运行 GCC ,) 驱动程序旨先运行 C 预处理器 ( cpp ), 它将 C 的 
源程序 main.c 翻译成一个 ASCII 码的中间文件 maii3 + i : 


cpp [other arguments] mairi-c /tmp/main.i 


接下来，驱动程序运行 C 编译器 （ ccl ), 它将 mainj 翻译成一个 ASCII 汇编语言文件为 main.s 


ccl /tmp/main-i main.c -02 [other arguments] 

然后，驱动程序运行汇编器 （ as )， 它将 maims 翻译成“个可重定位目标文件 (relocatable object 
file ) main^or 


/tmp/main.s 


■o 


[other argaments] 一 q /tn»p/main*o /tmp/mdin 


as 


t C 


驱动程序经过相同的过程 1 成 swap . o . 最后，它运行链接器枵序 Id , 将 maii ^ o 和 swap . o 以及 
-些必要的系统 S 标文件组合起来，创建一个可执行的目标文件 (executable object file ) 


P : 


Id -o p [system object files and args] /tmp/main,o /tmp/swap 


o 


要运行可执行文件 p ， 我们在 Unix sbdJ 的命令行上输入它的名字: 


，/p 


umx> 
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源文件 


Swap. c. 


翮译器 


翮译器 


(Cpp 


a 一 (cpp 


■icl 


eel 』 as 


t 


可車定位标文件 


rfi 占 n u 


swap. c 


链核器 （ id > 


完全链接的 
可执行 3 标文件 


7.2 静态链接 


链接器将可重定位 a 标文件 m 合成一个可执行 n 标文汁 - p t 

shell 调用 个 在操作系统中叫做加栽器 （loader) 的函数，它拷贝吋执行文件 p 中的代码和数 
据到#储器，然后将控制转移到这个程序的开头。 


7.2 静态链接 

像 Unix Id 程序这样的静态链接器 (static linker) 以一组可重 定位目 标文件和命令行参数作为输 
入 ，生成 个 完全链接的可以加载和运行的可执行目标文件作为输出。输入的可重定位 H 标文件由 
各种不冋的代码和数据节 （section) 组成。指令在一 x 节中，初始化的全局变量在另一个节中，而 
未初始化的变1又在另外一个节中。 

为/创建可执行文件 f 涟接器必须完成两个主要任务 r 

• 符号解析 （symbol resolution)。H 标文件定义和引用符号。符号解析的目的是将每个符弓引 
用和■个符号定义联系起来， 

重定位 （rdocmion), 编译器和汇编器生成从地址零开始的代码和数据节。链接器通过把每 
个符号定义与个存储器位置联系起来，然后修改所有对这些符号的引用，使得它们指向 
这个存储器位置，从向重定位这些节。 

接下来的内容将更加详细地描述这些仟务6在你阅读的时候，要记住关丁链接器的一些基本事 
实: H 标文件纯粹是字节块的集合。这些块中，有些包含程序代码，有些则包含程序数据，而其他 
的则包含指导链接器和加载器的数据结构。链接器将这些块连接起来，确定被链接块的运行时位置 f 

并且修改代码和数据块中的各种位置，链接器对3标机器了解其少，产生_标文件的编译器和汇编 
器已经完成了大部分 T 作。 


* 


7.3 目标文件 


H 标文件有三种 形式： 

_可重定位目标文件。包含二进制代码和数据，其形式可以在编译时与其他可重定位 F1 标文件 
合并起来，创建一个吋执行 H 标文件， 
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• 可执行 B 标文件， 包含二进制代码和数椐，其形式可以被直接拷贝到存储器并执行。 

• 共享目标文件。一种 特殊类型的坷重定位 Q 标文件，可以在加载或者运行时，被动态地加载 

到存储器并链接， 

编译器和汇编器生成可重定位 R 标文件（包括共享 H 标文件链接器生成可执行目标文件。从 
技术上来说，一个目 标模块 (object module) 就是一个字节序列，而一个目 标文件 （cbjm file ) 就 

是一个存放在磁盘文件中的目标模块。不过，我们还是互换地使用这些术语。 

各个系统之间，目标文件格式都不 相同。 第一个 从圾尔 实验室诞生的 Unix 系统使用的是 a.out 
格式（直到今天，可执行文件仍然指的是 tout 文件 )。 System V Unix 的早期版本使用的是 COFF 
C Common Object File format, 一般目标文件格式 ） D Windows 使用的是 COFF 的一个变种，叫做 PE 

(Portable Executable t 可移植可执 ti) 格式。现代 Unix 系统 - 比如 Linux ， 还有 System V Unix 

后来的版本，各种 BSD Unix ， 以及 SUN Solaris ——使用的是 Unix ELF (Executable and Linkable 

Format, 可执行和可链接格 式 ) 。塔管我们的 i 寸论集中在 ELF 上，但是不管是哪种格式，基本的概 
念是相似的。 


7.4 可重定位目标文件 


图 7.3 展示了〜个典型的 ELF 可重定位 H 标文件。 ELF 头 （ ELFheader) 以一个 16 宇节的序列 
幵始，这个序列描述了宇的大小和生成该文件的系统的字节顺序。 ELF 头剩下的部分包含帮助链接 
器解析和解释 S 标文件的信息 a 其中包括 ELF 头的大小、 S 标文件的类型（比如，可重定位、可执 
行或者是共享的 ) 、机器类型（比如， IA32), 节头部表 (section header table) 的文件偏移，以及节 

头部表中的表目大小和数量。不同节的位置和大小是由节头部表描述的，其中 H 标文件中每个节都 
有一个固定大小的表 3 (entry )。 


ELF 头 


, test 


-rudata 


■ ds.ta. 


T bss 


.sypitab 




.rel,text 


. [: el . 


■debug 


line 


r strtab 


描述 s 标 
文件 KP 


节头部表 


7.3 典型的 ELF 可 1 定位目标文件 

夹在 ELF 头和节头部表之间的都是节 。/ - 个典型的 ELF 可重定位 H 标文袢包含下面儿个节 
■tot: 已编译程序的机器代码。 


■^ 1 
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# rodata: 只读数据，比如 printf 语句巾的格式串和升关 （switch) 语句的跳转表(参见练习题 7.14) D 
.data: 已初始化的伞局 C 变量。局部 C 变單在运行时被保存在栈中，既不出现在 .data 竹屮，也 
不出现在 .bss 节中。 

s: 未初始化的全局 C 变量， 在目标文件中这个节小打据实际的空间，它仅仅是一个占位符。 
目标 文件格式区分初始化和未初始化变量是为 f 空间效率：在目标文件中，末初始化变量不需要占 
据任何实际的磁盘空间。 

.symtab: —个符号表 （symboHable)， 它存放在程字中被定义和引的函数和全 M 变最的信息 □ 
些枵序员错误地认为必须通过 -g 选项来编讦一个程序，得到符号表佶息。实际上，每个可重定位 
H 标文件中都有一张符号表。然而，和编译器中的符号表不同， . synnab 符号表不包含局 

部变量的表 

.itLtort: 当链接器把这个目标文件和其他文件结合时， 

而言，任何调用外部函数或者引用全局变量的指令都需要修改。另一方面，调用本地函数的指令则 
不需要修改。注意，却执行 n 标文件中并不需要重定位信息，因此通常省略，除非使用者显式地指 
示链接器包含这些信息。 

.reLdato: 被模诀 W 义或引用的任何令 R 变量的信息。一般而言.任河己初始化全局变量的初始 
值是全局变量或者外部定义闲数的地址都需要被修改。 

.debug: —个调试符号表，其有些表 目是程 序巾定义的局部变暈和类型定义，有些表 「j 是程序中 
定义和引 ffl 的全局变最 t 有些是原始的 C 源文件。只有以 -g 选项调用编译驱动枵序时，才会得到这 


4 




节中的许多位置 都需要 修改。一般 


.text 


张表 


Jine; 原始 C 源程序中的行号和 itoct 节巾机器指令之间的映射。只有以 -g 选项调用编译驱动程序 
时， 才会得到这张表。 

. strtab : -个字符串表，其内輕包括 .symtab 和 .debug 节中的符芎表，以及 钌头部 中的竹 名字 。字 
符串表就是以 mill 结尾的 f - 符串序列。 

旁注： 为什么未初始化的数据称为 bss ? 

用术语, bss 来表示未初始化的数据是很普遍的，它起始于 IBM 704汇编谱言（大约在1957年) 
中“块存铑开始 (Block Storage Start T 指令的首字母缩写，并沿用至今.一个记住区分 +data 和上 ss 
节的词单方法是把 “bss” 看成是“更好地节省空间 （Better Save Space)! ”的縮写， 


7.5 符号和符号表 

每个可軍定位 H 标模块 m 都有一个符号表，它包含 m 所定义和引 ffl 的符6的信 g 。 在链接器 
的上下文屮，有-_种不同的符号 r 

• 由 m 定义并能波其他模块引用的全局符号。全局链接器符号对应 f 非静态的 C 闲数以及被 

定义为不带 C 的 static 属性 的全兒 变暈。 

• 由其他模块定义并被模块 m 引用 的全局符号。这些符号称为外部符号 ( external ), 对应于 t 
义在其他模块屮的 C 闲数和变暈。 

• 只 被槙块 m 定义和引用的本地符号。有的本地链接器符号对应 f 带 static 属性的 C 函数和 
全局变量。这些符号迮模块 m 中的任何地方都是可见的，但是+能被其他槙块引用。 fl 标 




J E)i_SYmb*l 


cyped&I struct j 

int namer 
int 

iflL ^iz4p; 

^ h-ar type : 4 ¥ 

bi nd jngj-4 

chMi r 關 erv « ed 『 

char sectiG/ij 


J 


6 


7 


10 


W budlng #41 4 


int K = 1| 
return K ; 


Ini 10 


static int it = a 
return K 『 




™ir/Ij n k/rlhm 


l w Fli liableoffliet*/ 

affstu nrVM addms ♦/ 
■I in hyis */ 

l f a i & iicn , 

: I 1 * l^alQf ^ bilaj ^ 

■■* U^niLWd 

/* Krt ' h^ilkr I 

COMMON V 






/+ 


fk n 


(4 hi *] ♦/ 


^ ABS . UNDEF ，/ 


7A ELF 符号*条 


在这种精况中，染译 在 Jtes 中为柙个曠数分妃空间， 并引地 （import) 个惟…的本地 
符号搶汇 8SS , 比如.它可 以用- 农示蛘 fef 中的定文， e 用 H2 我示珀 数及中的让义， 

■: c ® 亩«学* : i . j ' tte :. 

eft 序 S 使长具柚 在蟥块 内舞 BtEif + rA 獻声 匕， 就汴伟在 Javfl 和 C++ 中使押 pihik 
和声明 C 墀代碘文件柏■濟_ 块的 •色 h 任啊声褀爷有 atmic 爲 .14 的全属 St A * * 教 
ri 或摘 ifc 杯省* L 类 似地.任舛 ，明沖不晕 Btfltie ft 槿的全*窆壹知||教都是公#时_町以隹其他 
携块访 ft ■ 尽可 t 用 j_it JM * 未保妒 tt 軻 A 欲悬程习侑 ■ 

符号农1由汇編_构 造的. 使巾嶋#器_出利汇嶋语亩 _ s 文件中_符兮 + .symlab „ 

74麻召了每个(^)的格式 


中包古 HU ; 


符 号凝. 这诹符号农包作一个 fe 于* 0旳敢租 ■ 


fr 


fl 




ID 


11 


交褥屮对应于镇坱的和相应 的滅文 ft 的名字也 H 获得本地符号* 

认识到本地 埼技掛 符号和本■屯啐疗变雪的不冋 JIHS * 的中的符令丧不钽含对应于本 
吆非脖态构序 变极的 fj ； 何符兮 + 这铒符号在追行 It 在枝中被 f J ¥ h 链後眯对此类符4不感兴場 + 

有_ 的是 ，定义为芾 tCscflfkM 性的本》过样费1«不在栈中背理的■収園代之,壤 ffa 在 JBta 

屮为 姆个 定义分 in 空间，并在符兮衣中创个有惟一名甲 的本 地链接 n 符 g . it 如 ， ks 
也則一 AT 块中的用个味 ft 定义/ 一 tP 东本地令1,1 i ■ 
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■Tfl 


m 






鬧 


pun 


■ ■ 


■^r _ 

9 


t 

n 

i ,1 


__□" 」 ■ 


^1 
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name 是字符串表中的宇节偏移，指向符号的以 mill 结尾的字符串名字。 value 是符号的地址。 
对于可重定位的模块来说 f value 是距定义 R 标的节的起始位置的偏移。对十 nj 执行0标文件来说， 
该值是一个绝对运行时地址。 size 是3标的大小（以字节计算）。 type 通常要么是数据，要么铯函数 & 
符号表还可以包含各个节的表 R, 以及对应原始源文件的路径名的表 Fh 所以这些口标的类型也有 
所不同， Binding 域表示符号是本地的还是全局的 t 

每个符号都和目标文件的某个节相关联，由 section 域表示，该域也是一个到节头表的索引。有 
二个特殊的伪节 (pseudosection) ,它们在作头表中是没有表 H 的： ABS 代表不该被重定位的符号， 
UNDEF 代表未定义的符号（比如，在本 H 标模块中引用，但是却在其他地方定义的符号），而 
COMMON 表示还未被分配位置的末初始化的数据目标。对 T-COMMON 符号， value 域给出对齐请 
求，而 size 给出最小的大小， 

比如，下 [ft 是 main+o 的符号表中的最后二个表通过 GNU READELF 丄具 显小出 来^升始 
的8个表目没有显示出来，是链接器内部使用的本地符号. 


Value Size Type Bind 

0 8 OBJECT GLOBAL 0 

0 17 FUNC GLOBAL 0 

0 0 NOTYPE GLOBAL 0 


Nam 


Ot Ndx Name 


3 buf 


1 main 


10 : 


UND swap 

在这+例子中，我们看到一个关于全局符号 buf 定义的表 H ， 它是一个位于 . data 节中偏移为零 
m value ) 处的 8 字节目标。其后跟随着的是全局符号 main 的定义，它是一个位于 .text 节中偏移 

为零处的〖7字节函数。最后个表目来自对外部符号 swap 的引用。 READELF 通过一个整数索引 
来标识每个节《 Ndx=l 表小 .text 节，而 Ndx -3 表示 .data 节 6 

相似地， 卜面是 swap.o 的符号表表 R : 


Mum 


Value Size Type Bind Ot Ndx Name 

0 4 OBJECT GLOBAL 0 3 bufpO 

0 0 NOTYPE GLOBAL 0 _ buf 

0 39 FUNC GLOBAL 0 

4 4 OBJECT GLOBAL 0 COM bufpi 


8 


9 


10 


swaD 


11 


首先，我们看到一个关于全局符号 bufpO 定义的表 R ，它是从 data 中偏移为零处开始的一个4 

字节的己初始化 FI 标。 卜一 个符号来自 bufpC 的初始化代码中的对外部符号 buf 的引用。后面紧随 
的是全局符号 

bufph 它是/个未初始化的4字节数据 H 标（要求4字节对齐），最终4这个模块被链接时它将作 

为一个 .bss H 标分配 c 


它是一个位于 .text 中偏移为零处的39字节的滅数。最后一个表 H 是全局符号 


swap， 


竦初暖 7.1 

这个题目是关于图7,1 ( 1> ) 中的 swap.o 模块 D 对于每个在 swap.o 中定义或引用的符号，请 

指出它是否在模块 swap.o 中的 .symtab 节中有一个符号表表目 & 如果是，请指出定义该符号的模 

块 （swap.o 或者 main.o)、 符号类型（本地、全局或者外部）和它在模块中占据的节 （+text、 

或者 .bss). 


data 
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■ Bl 


m 


«ii vmm 在 _十_ 块爭 tA 




baf 


buip # 

■叫 f pi 


叫 nji 

teep 


7,6 符号解析 


链接戕货析符 4 用的方坤个屮川4它_入的叫 | R 定位 Pis 4 忭的符 号表中的一个 rtl 

的符兮系&求 1 对耶些和引用定义在相閒換块中枘本地符 v 的今 旧. n ^¥¥ iM^m 

了的* ill 汗 S 只以午每今■棋块中的_个本地符号只 fF —十定 义* 编译 器还《| 保胙态 本迪变§_它奸! 
也金 南太地 fe 接器符咭 ， 拥 初恃一 mil 字， 

不过，对全屬符今的屮用輛析 Itflff 得多. 1编叶刼 * 到一_个+是在[慎块中&又昀芥号 (突 

t 会惘玟该竚 号是在 B # J ： 个祺块屮定义的， 生成一 个瞇孩器符号丼把 


K 成的数尨] 

它交铪钮接器处如霰 iftss . 它 mf £ fi 槍入褸 块… ffifU ■: ft 这个搶引甩的荮士 

Cil 黹很 _M 读 tt> BI* 倌息 # 终止 _ 比如，如 *ailtt*d 


Li 峰 XJTJS 上编洋 和钻孩卜_时的 


文件 B 


veld focs^void! r 


2 


1 


in |)[ 


2 T 3 t 


fMOp 


D ? 




£ 


啡么编 Ffj # 会没冇(*碍地这行 fe ms 当链椟 » 无法* ? 析对『《的屮用时.它合终 ii : 


unlMi gaa -Wall -ffi? -o link€rror linker 
/tnip^ct&zSuti.dii In f^ncrti m 'Min 1 ： 

/ t ^ p / ccSz&uti.o (- test + Gx ^ 11 UTnie!icifid rttere^ce ib h £ ta 1 
OOl Leci. 3 : Id i-frturAtd 1 ^it si：-stun 


还因力相冋的符吁会被多个 u 私文件定文.在这祌惝况中，链 
接薄必钟费么徐志一个 ta «, i 么以某种方法选出一个定殳并_弃其他定义， 系线 沾纳的方法 

ta 招柑和链揉»之_的协作 I 迳忭也町推蚧爷知情的 桴序敁 带来 •些令人埘 恼的 h ] a . 

申 H 槁 M 符粤抽蠔邛 ( numgllnp ) 

C ++ 和 Jm 弟九许重我汸法，遑哲才法4»代埤中有相 K 的 本宇， 却省不 ft 的# ■歡 》_)表，呼釵 
迷雄汸是如何足瘌迳些不啐的 f 戴 A 抚之闾的矗弄喊？ C ++ 和 hvs 中晚使内重我 (礪为 A 法 
*特4 个嫌方法扣麥教列表 il 合 tt 瑪成一个对钱接 S 来说谁 一 的 i T . 这种蠄 %HM _ 敵鲠坏 
(mmgiliig X 而相 反的 过钱叫聚憮 i U 

幸途的域«肇容的 S 5 t 抹策略 . 一 ■个巳 *1 坏美的 Af 是字+字符的整 教教* 


#注：对 CMO 


fiHSu 


I 


ii 


- ： n py I il 5 I 
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后面振原始名字组 成的， 比如，类 Poo 被编玛成 3Foo, 方法被編场为雇始方法名，后面加上_，加 
上已妖坏类的类名，再加上每个麥教的一个字母 * 比如， Foo^ba^in^ tong) 被編碑为 bar_3F6oil_ 

軚坏全局变量和模板名字妁策格是相似的. 

7.6.1 链接器如何解析多处定义的全局符号 

在编译时，编译器输出每个全局符号给汇编器，或者是强 〔strong)， 或者是弱 （weak ), 而汇 
编器把这个信息隐含地编码在可重定位 R 标文件的符号表甲^函数和已初始化的全 M 变量是强符号， 
未初始化的全局变量是弱符号。 对丁图 7.1 中的示例程序， buf.bufpO, main 和 swap 是强符号， bufpl 

是弱符号。 

根据强弱符号的定义， Unix 链接器使用下面的规则来处理多处定义的符号 r 
* 规则1:不允许有多个强符号。 

• 规则2:如果有一个强符号和多个弱符号，那么选择强符号. 

* 规则3:如果有多个弱符号，那么从这些弱符号中任意选择一个。 

比如，假设我们试图编译和链接下面两 A C 模块： 


1 / + barLc 

2 int main() 


/— fool+cV 

int main () 


return 0; 


return 0; 


在这个示例中，链接器将生成一条错误信息，因为强符号 main 被定义了多次（规则 o 


gcc fool , c barl 
/tmp/cca01S022 

/tmp/cca015022 *o (* text+0x0) : multiple definition of 'min 
/tmp/cca015021 + o(,text+CxO); first defined here 


unxx> 


c 


In function 1 main 1 r 


相似地，链接器对于下 ® 的模块也会生成一条错误信息，因为强符号 X 被定义了两次（规则 1) 


f* fot>2.c */ 

int x ^ 15213 


1 bar2.c */ 


15213; 




4 void f() 


4 


int main() 


5 


return 0 ? 


然而，如果在一个模块里 x 未被初始化，那么链接器将安静地选择定义在另一个模块中的强符 
号（规则 2): 


/* foo 3 .c V 

ttinclude <stdio-h> 

void f(void )； 


1 /* bar3.c */ 

2 int x ； 


void f (； 


15213 ; 


int x 
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15212 


x 


int main() 


! 


{ 


10 


printf ( 

return 0; 


%d\n' x) 


x 


11 


12 


在运行时，函数 f 将 x 的值由15213改为15212,这会给 main 函数的作者带来不受欢迎的惊奇 I 
注意，链接器通常不会表明它检测到多个 x 的定义： 


unix> gcc -o foob^r3 fco3-c bar3 .c 

/foobar3 


unix> 


15212 


x 




如杲 X 有两个弱定义，也会发生相同的事惰（规则 3): 


f* foo4.c + / 

# include <atdio.h> 

void £(void); 


/* bar4,c 本 I 

int x; 


4 void f (! 


int x 


5 


15212 


x 




int main [] 


15213 


x 


10 


f 0 


11 


printf ( 

return 0 ； 




%d\n n , x )； 


x 


12 


13 


规则 2 和规则 3 的应用会造成一些不易察觉的运行时错误，对于不知情的程序员来说，是很难 
理解的，尤其是如果重复的符号定义还有不同的类型时。考虑下面这个例 T , 其中 x 在一个模块中 
定义为 int , 而在另一个模块中定义为 double 。 


/* foo5.c V 

#inclLde <atdio,h> 
void f(void ) : 


1 


1 f* bar5x */ 

2 double x 


4 


4 void f() 


5 


int x = 15213; 
int y 


15212 


6 


- 0 , 0 ; 




x ^ 


int main () 


10 


LI 


printf ( M x 


Ox%x y = Cx%x \rT 


12 


x, y) 
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return 0 


13 


14 


在“ 台 IA32/Linux 机器[.， double 类型是8个字节，而 int 类型是4个字节。因此， bar.c 的第 
6行中的赋值 d.O 将用负数的双精度浮点犮不薄盖存储器中 x 和 y 的位黄 （foo5.c 中的第5行和 

第6行）！ 


linux> gcc 

]iruix> i /foobar5 
= 0x0 y 


foohar5 [oo5.c harh^c 


-o 


OxSOOOOOCO 


x 


这是一个细微而令人讨厌的错误，尤其是因为它 E 默畎发 生的， 编评系统不会给出警告，而1〗. 
通常要在程序 执行很 久以后 龙表现 出来， U 远离错误的发生地，在一个拥有几百个模块的人型系统 
中，这种类型的错误相3难以修 iH, 尤其因为许多程序员并不知道链接器是如何工作的。当你怀疑 

这样的选项调用链接器，这个选项告诉链接器，在解析多 


有此类错误时，带像 GCC-w 
定义的全局符号^义时，输出一条 f 告倍息 5 


-common 




练习魎 7.2 

在此题中， REF(x.i 卜 DEF(x.k) 表示链接器将把模块 i 中对符号 x 的任意引用与模块 k 中 x 的定 
义联系起来。对于下面的每个示例，用这种表示法来说明链接器将如何解析每个樸块中的多个定义 
的符号。如果有一个链接时错误（规則I ),输出 " ERROR". 如果链接器从定义中任意选择一个（规 
则3)， 则输出 “ UNKNOWN ' 


A . 


/★ Module 1 V 
int min () 


/* Module 2 V 


int main 

int. p2 () 


(a) REF-main - 1) 

(b) REF : main.2) DEF( 


> DEF [ 


■ r 


B . 


/* Module 1 */ 

void main{} 


/* Module 2 */ 
int main=l ； 

int p2() 


(a) REF (mam, 丄） 
\b) REF(main,2) 


> DEF ( 

--> DEF( 




C . 


Module : 


Module 2 */ 

double 

int p2() 


/ + 


mt x ； 

void main{} 


x= 丄 . 


(a) RFF{x + l} 

(b) RKF(x,2) --> DEF< 


DEF( 


> 
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7.6.2 与静态库链接 

迄今为止、我们都是假设链接器读取 组可 重定位 H 标文件，并把它们链接起来，成为一个输 
出的 nJ 执行 文件。 实际上，所有的编译系统都提供一种机制，将所有相关的目标模块打包为一个单 
独的文件，称为静态库 （static library ) ,它也可以用做链接器的输入。当链接器构造个输出的可 

执行文件时，它只拷贝静态库甩被应用裎序引用的 H 标模块。 

为什么系统要支持库的概念呢？以 ANSIC 为例，它定义了一组广泛的标准 I / O 、串操作和整数 
算术闲数，例如 atoi 、 printf 、 scanf 和 random 。 它们在 libc . a 库中，对每个 C 程序来说都是可用的。 
ANSIC 还在 lilrna 库中定义了 一组广泛的浮点算术闲数，例如 sin 、 cos 和 sqrU 

让我们来看看如果不使用静态库，编译器开发人员会使用什么方法来向用户提供这些成数。一 
种方法是 it 编译器辨认出对标准函数的调用，并 E 接生成相应的代码 a Pascal , 只提供了一小部分 
标准函数，釆用的就是这种方法，但是这种方法对 C 而言是不合适的，因为 C 标准定义了大置的标 
准函数。这种方法将给编译器增加显著的复杂性，而且每次添加、_除或修改一个标准函数时，就 
需要-个新的编译器版本。然而，对于应用程序员而言，这种方法会是非常方便的，因为标准纳数 
将总是可用的。 

另一种方法是将所有的标准 C 涵数都放在一个申独的可重定位0标模块中——比如说 libc , o 中 
——应用程序员坷以把这个模块链接到他们的可执行文 件中： 


unix> gcc main - c /usr/lib/libc.o 


这种方法的优点是它将编译器的实现与标准函数的实现分离开来，并且仍然对程序员保持适度 
的便利。然而，一个很人的缺点是系统中每个可执行文件现在都包含着一份标准函数集合的完全拷 
贝，这对磁盘空间是很大的浪费。（么一个典型的系统上， libc . a 大约是 8 MB ， 而 libm . a 大约是1 

更糟的是，每个 if 在运行的程序都将它 ft d 的这些阐数的拷贝放在存储器中，这又是极度浪费存储 
器的，另一个大的缺点是 f 对任何标准函数的任何改变，无论大小，都要求库的开发人员重新编译 
整个源文件，这是个非常耗时的操作，使得标准函数的开发和维护变得很复杂。 

我们通过为每个标准函数创建一个分离的对重定位文件，把它们存放4:一个为人家所知的口录 
屮来解决其中的一些问题。然而，这种方法要求应用程序员显式地链接合适的0标模块到它们的可 
执行文件中，这是 - 个容易出错而且耗时的过程： 


ini ； 1 


unix> gcc main r c /usr/lib/printf.o /usr/lib/scanf.o 


静态库概念被提出来，以解决这些不同方法的缺点。相关的函数可以被编译为独立的 n 标模块, 

然后封装成一个单独的静态库文件。然后，应用程序可以通过在命令行上指定笮独的文件名字来使 

用这些在库中定义的函数。比如，使用标准 c 库和数学库中函数的程序可以用形式如卜-的命 令行来 
编译和 链接： 


unix> gcc main * c /usr/lib/libm.a /usr/lib/lihc.a . 


在链接时，链接器将只拷贝被程序引用的目标模块，这就减少了可执行文件在磁盘和存储器中 
的大小。另一方面，应用程序员只需要包含较少的库文件的名字（实际上， c 编译器驱动程序总是 
传送 libc . a 给链接器，所以前面提到的对 libc ^ a 的引用是不必要的)。 

在 Unix 系统中，諍态库以一种称为存档 ( archive ) 的特殊文件格式存放在磁盘中。存档文件是 
—组连接起来的可重定位9标文件的集合，有〜个头部描述每个成员 R 标文件的大小和位置 • 存档 
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文件名由后缀 .a 标识。为了使我们对库的讨论更加形象具体，假设我们想在一个叫做 libvectora 的 
静态库中提供图75中的向量例程。 


— ------—- codeAink/addvec. c 

void addvec(int *k, int , 

int n) 


code/link/mulrvec.c 

int *y t 

int *s^ int n) 


void multvec(int 


1 


★ 


x 




2 


z 


4 


int i ； 


5 


for {i = 0; i < n; i+ 十 ) 

sii] = x[i] + y[i] 


for (i 


D; i < n; 14+) 

- x[i] * y[i]; 


2 [ 1 ] 


code/link/addvec. c 


code/linkf multvecx 




( b ) multvec.o 


7.5 libvector.a 中的成员目标文件 




为了创建该库，我们将使用 ARIM, 如下 


unix> gccaddvec, c mul tvec 
unix> ar res libvector.a addvec.o multvec.o 


c 


4 


为了使用这个库，我们可以编写一个应用，比如图 7.6 中的 maim 它调用 addwc 库例程（包 
含（或头）文件 vector.h 定义了 iibvwtora 中例程的函数原型)。 


code/lirtk/main2 m c 


/* main2.c */ 

# include <stdio.h> 
#include Ir vector.h 


2 


4 


5 int x[2! ={1,2}; 

6 int y[2 〗 =[3 r 4}; 

7 inn zi2 ]； 


int main () 


9 


10 


11 


addvec(x^ y ; z, 2); 

printf( u s 

return 0; 


12 


[%d %d]\n" r z[0] , z[l ])； 




13 


14 


o code/i ink/ma in 2 x 


7.6 示例程序 2 


这个程汴调用了静态 libvcctora 库中的成员 函数, 


为了创建这个可执行文件，我们将编译和链接输入文件 maito 和 Ubvectora 


unix> gcc -02 main2 

gcc -static -o p2 main2 r o w /hbvector 


c 


umx> 


d 


7.7 概括了链接器的行为 □ -static 参数吿诉编译器驱动程序，链接器应该构建一个完全链接的 
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可执行目标文件，它可以加载到存储器弁运行，在加载时无须更进一步的链接了9当链接器运行时， 
它抖定 addvec . o 定义的 addvec 符号是被 main . o 引用的，所以它拷贝 addvec , o 到可执行文件因为 

程序不引用任何由 multvec .0 定义的符号，所以链接器就不会拷贝这个模块到可执行文件。链接器还 
会从 libc . a 拷贝 printf . o 模块，以及许多 C 运行时系统中的模块。 

源文件 


mam ； .c vector .h 


豳译器 


If 态库 


(cpp, cci, as) 


libvector.a 


libc 


m&in2 .□ 


addvec 


printf. 0 


可 * 定位目标文件 


和其他 printfA 调用的祺块 


链接器 (14 


完全链接的 
可执行 B 标文件 




7+7与静态库链接 


7.63 链接器如何使用静态库来解析引用 

虽然静态库是很有用而且重要的工具，但是它们同时也是程序员迷惑的源头，因为 Unix 链接 
器使用它们解析外部引用的方式是令人困惑的。在符号解析的阶段，链接器从左到右按照它们在 
编译器驱动程序命令行上出现的相同顺序来扫描可重定位目标文件和存档 文件 〆 驱动程序自动将 
命令行中所有的 . c 文件翻译为+0文件在这次扫描中，链接器维持一个可重定位目标文件的集合 
E ， 这个集合中的文件会被合并起来形成 pJ 执行文件，和一个未解析的符号（也就是，引用了但是 
尚未定义的符号）集合 U ， 以及一个在前面输入文件中已定义的符号集合 IX 初始地， E 、 U 和 D 
都是空的。 


• 对于命令行上的每个输入文件 f , 链接器会判断 f 是一个目标文件还是一个存档文件 

( carchive )。 如果 f 是一个 R 标文件，那么链接器把 f 添加到 E , 修改 U 和 D 来反映 f 中的 
符号定义和引用，井继续 F —个输入文件。 

• 如果 f 是一个存档文件，果么链接器就尝试匹配 U 中未解析的符号和由存档文件成员定义 

的符号。如果某个存档文件成员 m , 定义了一个符号来解析 U 中的一个引用，那么就将 
加到 E 中，并且链接器修改 U 和 D 来反映 m 中的符号定义和引用。对存档文件中所有的成 
员目标文件都反复进行这个过程，直到 U 和 D 都不再发生变化.在此时，任何不包含在 E 
中的成员 H 标文件都被丢弃，而链接器将继续到下一个输入文件。 

• 如果当链接器完成对命令行上输入文件的扫描后， U 是非空的，那么链接器就会输出一个错 

误并终止。否则，它会合并和重定位 E 中的目标文件，从而构建输出的可执行文件。 

不幸的是，这种算法会导致一些令人困扰的链接时错误，因为命令行上的库和目标文件的顺序 
非常重要。如果在命令行中，定义一个符号的库出现在引用这个符号的目标文件之前，那么引用就 
不能被解析，链接会失败，比如，考虑下面的命令行发生了什么？ 


m 


unix> gcc -static ./libvector.a main2.c 

/tmp/cc9XH6Rp-o : In function 『 main ■: 


m 


/ tmp/cc9XH6Rp . o (, text+0x13) : undefined reference to p ckddvec 


■ 


在处理 Ubvectona 时， l ： 是空的，所以没冇 libvectona 中的成 员目标 文件会添加到 E 中。因此, 

对 addvec 的引用是绝不会被解析的，所以链接器会产生一条错误信息并终 ih 

关库的一般淮则是将它们放在命令行的结尾如杲各个库的成员是相互独立的——也就是说 

没有成员引用另一个成 ® 定义的符号——那么这些库就可以以任何顺序放置在命令行的结尾处。 

另-方 曲\如果库不是相互独立的，那么它们必须排序，使得对于每个被存档文件的成员外部 

引用的符号 s ， 在命令行中至少有一个 s 的定义是在对 5 的引用之后的，比如，假设 foox 调用 libu 

和 libz . a 中的函数，而这两个库又调用 liby+a 中的的数，那么，在命令行中 libx+a 和 libu 必须处在 
Iiby,a 之前： 


gcc foo.c libx.a Jihz.a lihy.^ 


umx > 


如果耑要满足依赖：求.可以在命令行1：電复库。比如，假设 foox 调用 libx . a 中的函数，该库 
X'm liby , a 中的函数，而 liby . a 又调用 libx + a 中的函数，那么 libx . a 必须在命令行上重复 出现： 


gcc foo 


libx.a liby.a libx r a 


vim x> 


c 


■ 


作为另 种方法，我们可以将 libx . a 和 liby . a 合并成一个单独的存档文件。 


练习醞 7.3 

和 b 表示当前目录中的目标糢决或者静态库，而 a - b 表示 a 依赖于 b ， 也就是说 b 定义了一 
个被 a 引用的符号。对于下面每种场景，请给出最小的命令行（也就是一个含有最少数量的 S 标文 

件和库参数的命令)，使得静态链接器能解析所有的符号？|用。 

libx .a 

libx*a — liby.a 
libx,a — liby .a X liby 


a 


A . 




p. o 


B, p. o 




C . 


libx, a 


—► 


Ph o 


—► 


—► 


.a 


p *o 


7.7 重定位 

旦链接器完成了符号解析这一步，它就把代码中的每个符号$用和确定的 - 个符号定义（也 
就是，它的一个输入 H 杯模块中的一个符号表表 H ) 联系起来，在此时，链接器就知道它的输入 H 
标模块屮的代码节和 数据订 的确切人小。现在就可以开始重定位步骤 r , 在这个步骧中，将合并输 
入模块，并为每个符号分配运行时地址。重定位由两步组成： 

• 重定 位节和符号定 义。在这一歩中，链接器将所冇相同类型的节合并为同一类型的新的聚合 

节。例如，来〖1 输入 模块的 .data 被全部合并成一个节，这个节成为输出的町执 打肖 标文 

件的节。然后，链接器将运行时存储器地址赋给新的聚合节，陚给输入模块定义的每 
个节， 以及陚给输入模块定义的每个符弓 □ 当这一步完成时，程序屮的每个指令和今局变 
量都有惟一的运行时存储器地址了。 

• 重定位节中的符号引用6 在这一步屮，链接器修改代码节和数据节中对每个符号的引用，使 
得它 1 指 hiH 确的运行时地址。 力了 执行这一步，链接器依赖于称 为重定位表目 
entry ) 的可重定位 H 标模块中的数据结构，我们接下来将会描述这种数据结构. 




(relocation 
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7.7.1 重定位表目 

当汇编器生成一个目标模块时，它并不知道数据和代码最终将存放在存储器中的什么位置。它 
也不知道这个模块引用的任何外部定义的函数或者全局变量的位置。所以，无沧何时汇编器遇到对 

最终位罝未知的目标引用，它就会生成一 个重定位表目 (relocation entry), 告诉链接器在将 U 标文 

件合并成 nj 执行文件时如何修改这个引用.代码的重定位表目放在. rdo . text 中。己初始化数据的重 
定位表目放在 .relo,data 中。 

7.8 展示了 ELF 重定位表目的格式 d offset 是需要被修改的引用的节偏移。 symbol 标识被修 
改引用应该指向的符号。 type 告知链接器如何修改新的引用， 


code/link/elfsrructs, c 


typedef struct { 

i.nL offset; 
int symbol:24 

type:8 ； 


/* offset of the reference to relocate */ 
{* symbol ihe icference should point to 

relocation type *7 


2 


J Elf32_Rel; 


code/link/elfstructs.c 


7.8 ELF 重定位表目 




每个录 g 表示一个必领重定位的引用。 


ELF 定义了 : U 种不同的重定位类型，有些相当隐秘 .我们 只关心其中两种最基本的重定位 类型: 
R _386_ PC 32： 重定位一个使用32位 PC 相关的地址引用。回想一下3 A 3 节，一个 PC 相笑 

地址就是距程序计数器 （ PC ) 的当前运行时值的偏移量。当 CPU 执行使用 PC 相关寻址的 
指令时，它就将在指令中编码的32位值加丄 PC 的当前运行时值，得到有蚊地址（例如， 
call 指令的3标)， PC 值通常是存储器中下一条指令的地址。 

R _386_32: 重定位一个使用32位绝对地址的引用 d 通过绝对寻址， CPU 直接使用在指令中 
编码的32位值作为有效地址，不需要进一步修改。 

7.7.2 重定位符号引用 

7,9展示了链接器的重定位算法的伪代码。 


■ 


奉 


Eoreach section b { 


2 


foreach relocation entry r { 

refptr 


offset; l* ptr to reference to be relocated 


s 十 r 


4 


/* relocate a PC-relative reference */ 

if (retype == R,386_PC321 { 

refaddr = ADDR(s) 

*refptr = (unsigned) (ADDR(r,symbol 1 


r .of f set ； /* ref ^run-time address */ 

refptr - refaddrJ 


+ 


10 


11 


/* relocate ao absolute reference */ 

if (retype 


12 


R_386_32) 

refptr = (unsigned) (ADDR(r.symbol) 




13 


refptr )； 
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14 


lb 


7-9 重定位算法 


第〗行和第2行在每个 fis 以及与每个节相关联的重定位表 Hr J ： 迭代执行。为了使描述 M 体 
化，我彳 N 假设每个节 s 是一个宇节数组，每个重定位表 H r 是一个类型为 Elf 32, Re ] 的结构，如图 
7,8屮的定义 ■: S 外，我们还假设当算法迈行时，链接器 d 经为每 个货和 符号都选择了运行时地址 
t 分別用 ADDR ( s ) 和 ADDR ( Lsymbol ) 表示）。第3行计算的是需要重定位的4字节引用的数组 s 屮 
的地址。如果这个 1 jl 用使用的是 PC 相关寻址，那么它就月第5〜9行来重定位 D 如果该引用使用的 
是绝对寻址，它藏通过第11〜13行来重定位。 

重定位 PC 相关的引用 

M 想我们在图 7] U) 屮的运行示例， maiiuo 的 toct 节中的 main 程序调用 swap 秤序，改稈序 
是在 swap+o 中定义的。卜面是 call 指令的反汇编列表，是由 GNUOBJDUMP 丄具生 成的： 

6: e8 fc ff ff ff 


call 7 <main+ jx7> 


swap (); 

7: R_3 86_FC32 swap relocation entry 


从这个列农中，我們看到 call 指令开始于节偏移 0x6 处，由1个字节的操作码 0xe8 和随后的 
32 {^JlfflOxfffffffc ( | •进制 4) 组成，它是以小端法字竹顺序存储的。我们还看到 K 一行显示的是 
这个引用的重定位表 n 。 （冋想重定位表 R 和指令实际上是存放在 h 标文件的不同找中的。 

OBJDUMP T 具为了方便将它们显不在一起。）重定位表 H r 由3个域组成： 


r,offset = 0x7 

r . symbol 
r.type 


swap 

K_ 386 PC3 


这 g 域告诉链接器修改开始于偏移 M ( k 7 处的32位 PC 相关引用，使得在运行时它指向 
m , 现在，假设链接器己经 判定： 


swap 


ADD^(S) 


ADDR(.text) 


Cx^0483b4 




■v 


和 


ADDR (r. syrrbo i) - ADDR{ swap) = Cx80493c8 . 


使用阁？ .9 中的算法，链接器首先计算出1用的运行时地址（第7 行): 


reladdr = ADDR C s > 


f set 


0x804S3b4 Cx7 
0x80483bb 


然后，它将引用从当前值 （4) 修改为 0 x 9, 使得它在运彳 Iffr 指14 swap 程序（第8行): 

*reEptr: = (unsigned) (ADDRtr. symbol} 

(unsigned) (0x80483c8 

(unsigned) (0x9) 

得到的 W 执行 H 标文件中， call 指令有如下的重 定位的形式： 

30483ba ： 09 00 00 00 


^refpti 

(-4) 


refaddr) 

0x8C483bb) 


■ 


■ 






call 


80483c8 <swap> sw^p() 
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在运行时， call 指令将存放在地址 0x80483ba# P ^ CPU 执行 cal】 指令时^ PC 的值为 Ox804S3bf， 
即紧随在 call 指令之后的指令的地址。为了执行这条指令， CPU 执行以下的 步骤： 


1. push PC onto stack 
2+ PC < - PC 


0xB0483bf 

因此 t 要执行的 F …条指令就是 swap 程序的第一条指令，这当然就是我们想要的！ 

你可能想知道为什么汇编器会生成 cal ] 指令中的引用的初始值为-4。汇编器用这个值作为偏移 
t ， 是因为 PC 总是指向当前指令的 F —条 指令。在有不同指令大小和编码方式的不同的机器上， 
该机器的汇编器会使用不同的偏移量。这是-个很有用的技巧，它允许链接器透明地重定位引用 f 
很幸运地不用知道某--台机器的指令编码。 

重定位绝对引用 

回想图 7.1 中我们的示例程序, swap . o 模块将全 局指针 bufpO 初始化为指向全周数组 buf 的第… 
个元素的地址 

int *bufpO = Stbuf [0] ; 

因为 bu 印0是 一个己 初始化的数据 H 标，那么它将被存放在可重定位目标模块&#3^0的, data 节 
中。因为它被初始化为一个全局数组的地址，所以它需要被重定位。下面是 swap , 0 中, data 节的反汇 
编列 表： 


0x9 


0x9 


0x30433c3 


+ 


+ 






00000000 <bufp0>: 

0: 00 00 00 00 


int ^bufpO 二 ^huf[0] 

relocation emry 


0: R_336_32 buf 

我们看到血 la 竹包含-个 32 位引用， bufpO 指针，它的值为 0 x 0。 重定位表口告诉链接器这是- 
个 32 位绝对引用，开始于偏移 0 处，必须重定位使得它指向符号 buf 。 现在，假设链接器己经判定: 


ADDR(r.symbol) 


ADDR(buf) 


0x8049454 




链接器使用图 7.9 中算法的第 n 行修改了引用 


*refpti - (unsigned) (ADDK(r . synibol) 

二 (unsigned) (0x8049454 
= (unsigned) (0x8039454) 

在得到的可执行 s 标文件中，引用有下面的重定位形式： 

080494bc <bufpO>: 

304945c ： b4 94 04 03 

总 Ifin 之，链接器在运行时确定，变量 bufpO 将放置在存储器地址 0x804945 c 处，并 FI 被初始 
化为 0x8049454, 这个值就是 buf 数组的运行时地址。 

swap.o 模块中的节包禽5个绝对引用，都以相似的方式进行重定位（参考练习题 7.12) 

图7,10展示了最终的可执行 □ 标文件中被重定位的 +t«t 和 .data 节， 


rpfptr) 


0) 


Relocated! 




code/lin k/p-exe, d 


1 


080J83b4 

80483b4: 55 
80483b5: 89 e5 


<main> 


push 

mov 


%ebp 

%ebp 






edit 


SO - kB , lesp 

8He3c8 

fcd ； X r %珍|9其 

^^hp,%e0p 

btp 


^ 3 Wflp > JH^rpf a l P a 


4 


aolBlblp 03 »C 08 

糾 4B3ba; 09 m OQ 

sa 4 Bite ； n cO 

aa 4 @jcis es 

M 4@ is 3 i 5 d 
304^ C 48 i £J 

8£U8id ?0 
S 04 ft 3- c 6^ 90 

gOiftlcT] &o 




a 


9 


10 


li 


12 


rnmTA 

冬 *1 是 It 于觸 7.10 中的 f 定拉枉序妗. 

5行中时 f t 4 i ? l 用的十士*齣絶址是 f ■少？ 

H , 其5杆中对 swap 的重定位幻离的 f 六进命 | 值是多少？ 

c 说设冈 为氧绅 f 1 S _ 姓接5决定畔 . tes 1 节技在 ( hs »04 E：iW 处而•不是 flusSmQM 处. 

5行的#"定位引用的十六进刻伐是多少7 


A 


幺速种 


情况 r , 


7-10 W 技行文件 P MS ■定位的 _ te 4 和 .dda It 


.兔衲 nt 代外在阼 7 , 1 ^ 


DfMMSt <bufpG>: 

flMM5c 3 54 M 04 08 


Relixai^di 


€ tki 者 Aint^dafir 缯 ic 】心 


㈤ g 遍 ft 細 


ft 


11 0B0M ㈣ 

80413C0: 55 

S 04 fl ] e 9: Wh i & Sc U 44 DB 

B 04 t]eEf a ! 56 Ofl ㈣ 

BQ 4 SJd 4; S 9 #5 

a.04i3d6: tl 05 9S -34 DB ^8 訓 v l 


< swap ? : 


14 


pu^h 知 bp 

mi^v 


15 


0x604945cj indx 

%»sp r %ebp 
su k 咖 g d 58 r a^m 4 ,训 喻1 = 

&HUf 


Cf # r 咕咖? 

Git bkfiit 


16 


F1GV 


17 


m&¥ 


IQ 


li 


iQ4S36d; ?»J Dfl QB 

B04fl>eD 3 «? «c 

SD 利 3&2s 抑 

B.0J3J^= M 02 
004938^= al 4S 15 M 08 

I0^83eb ： as -Da 

a049J&d! 

ID4S3 


2D 


%ebp P le，p 

Oi ? 时衫 518, kajc 

%€€X r 
%4ti^ 


mav 


21 


V 


22 


« 


mv 


K 


21 


24 


mm 


25 


POP 


2i 


c3 


ret 


r ^ AfWp-fMJ 


ii) eiJteft, t 


trodt/I j nk/pdaUr -r w - J . f 


I 


OB 0 相 Sfl < buE>i 

E0fli454 ： aj. oq on ca az do no m 
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ELF 头部 

段头表 


只读存储器段〔代码段) 


lnat 


.text ： 


r^data 


.data 


读 / 写存储 s 段（数据段) 


,bdB 




从段头表中，我们看到会根据可执行目标文件的内容初始化两个存储器段 a 第1行和第2行告 
诉我们第一个段（代码段）对齐到一个 4 KB (2 n ) 的边界，有读/执行许可，开始于存储器地址 


7*12 示例可执行文件 p 的段头表 

图注：价文件 徧移； vaddr / padir : 虚拟/物理地址： align : 段对齐； film : 目标文件中的段大小; 
flags : 运行时许可。 


存储器中的段大小; 


； meims ; 


7.11 典型的 ELF 可执行目标文件 


可执行 S 标文件的格式类似于可重定位目标文件的格式> ELF 头部描述文件的总体格式 6 它还 
包括程序的入口点 （entry point ) ，也就是当程序运行时要执行的第一条指令的地址。 text , .rodata 

和 . data 节和可重定位目标文件中的节是相似的，除了这些节己经被重定位到它们最终的运行时存储 
器地址以外， . imt 节定义了 - 个小函数，叫做 Jnit ， 程序的初始化代码会调用它。因为町执行文件 
是完全链接的（已被重定位了)，所以它不再需要 . reb 节。 

ELF 可执行文件被设计为很容易加载到存储器，连续的可执行文件的组块 ( chunks ) 被映射到 
连续的存储器段。段头表 （segment header table ) 捅述了这种映射关系。图 7 J 2 展示了我们 的不例 
可执行文件 p 的段头表，是由 OBJDUMP 显示的， 


code/link/p-exe.d 


Read-only code segment 

LOAD off 


0x00000000 vaddr 0x08048000 paddr 0x08343000 align 2**12 
filesz 0x00000448 memsz 0x00000448 flags 


r-x 


Read/write data segment 

LOAD off 


OxOOC00448 vaddr 0x08049448 paddr 0x08049448 align 2**12 
filesz OxOOOOOOeS memsz 0x00000104 flags 


rw- 


code/tink/p-exe. d 


debug 


不加 t 到存储器的符号表 
和调试信息 


■ lihE 


■stttab 


描述目标/ 
文件竹 t 


节头表 


我们己经宥到链接器是如何将多个 U 标模块合并成一个可执行目标文件的。我们的 C 程序，开 
始时是一组 ASCII 文本文件，己经被转化为一个二进制文件，且这个二进制文件包含加载程序到存 
储器并运行它所需的所有信息。 7.11 概栝了一个典型的 ELF 可执行文件中的各类信息。 


7.8 可执行目标文件 




链接 


481 


节时段 

件行器 

文运储 

的到存 


连映 


将 





[ W ]8 WSWX ) 处，总共的存姑器人小趁招子 ft , 井初始化为可汍?文件的头心 WS 个寧 
节. K 中包栝 ELF 头？ ftk 段尖袅以及 .inL . aw 和 . mdam 节. 

5 ! 3 行和眾 4 盱吿诉我 f 】 第二个殴 《权 *IIU 晚对扦列一个 4 KB 的边界，开阶 

3P 存 储霱地 量他 0SW444S 处, lift 存播雄大小为 mo* 宇节,井用 M 文停《_0=_处 ff 截的 0 k « 
个卞节VI始化 s 在此 Wt 俱样 ta44Si!tiFJ|.dMi 节的 If 樹。3段中倒 下的字 节对® T ■■运行 时栉被 

初的化为；的加 s 歉掛* 


79加鈸可执行目标文件 


姐^行|_1 rJltl 11 Pk ^mm Uai! shell 的命今||中_入它时名？ I 


. /p 


因为 p 不玷一个内 wm&feiifij 令 ， 所以巾 rii 佥认为 p 篷一个可执仕两 砗文陣 r jiainiKt 
4 t 衔在存 Wl 器中称为加战 器 的 挣作系 统代码*为我 fif ] 运 如之. 仟何 UBliKfi 1 序卻 吋以 iiii 
■ « cew 珀&宋 叫用 fiu 钱 ft . 我们轉在 MjS 15咿详_截推述这个 SR . 加故睢将可执什 fl 标 t 

忡屮枘代码和歌椐从迸 a 拷！ n 釗存柚 器中. 然畤 a 过畊铃到耔序怙珀I条指令 . 叫入 pa t^tr>- 
poinL>, 宋运打 ii 托序. 这个将 到存仰谇沐塩什的 a«n4 歡如戴（_啡:)* 

_个 Unis W 序柿饵一 1■运行时#站沐映 H 如1417」3 所承*在 Lirwjs 氧 统中.代叶设 总跬从 
地址怳 【邮14即11«处开眛， 妗劁 KJlkfl : 接下宋的一个 JKB 利声的堆址处-运打时堆戊掩卜來的诧^ 

写 ftiJSW# •个 4KE*# 齐儀地址处.并遣过调 Wimltoc 哮往上 I1W 节中 详曲推 
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当加载器运行时，它创建如图 7.13 所示的存储器映像。在可执行文件 & 段头表的指导下，加载 
器将吋执行文件的相关内容拷贝到代码和数据段。接下来，加载器跳转到程序的入口点，也就是符 
■^_start 的地址 u /£_stiirt 地址处的启动代码 （ startup code) 是在 H 标文件 Ctrl.o 中定义的，对所有的 

C 程序都是一样的。图 7J4 展示了启动代码中特殊的调用序列。在从 .text 和 .ink 节中调用了初始化 
侧程后，启动代码调用 atexit 例枵，这个程序附加了一系列在应用调用 exit 函数时应该调用的程序。 
exit 函数运 thtexit 注册的蚋数，然后通过调用 _exil 将控制返冋给操作系统。接着，启动代码调用 
应用程序的 main 稈序，这就开始执打我们的 C 代码了。在应用程序返回之后，启动代码调用 _exit 
裎序 f 它将控制返回给操作系统。 


I’ entry point in + te?tt *1 
I* startup code in .text 
/* startup code in .init 
!* startup code in .text " 

!* application main routine */ 
/* returns control to OS */ 


1 0x0f50430c0 <_start> : 

call _libc_init_first 

call _init 
ca]1 aLexit 
call main 

c 己 11 _exit 

7 /* control never reaches here 


6 


7-14 在每个 C 程序中 afl . o 启动例程的伪代码 




让意：没有显水将每个闲数的参数压入呋中的代码 E 


旁注：加«器实际上是如何工作的？ 

我们对于加栽的描述从概念上来说是准确的，但也不是完全准璃，为了理解加栽实际是如何工作 
的，你必须理解进程、虚拟存糖器和存铺器映射的概念，这些我们还没有加以讨论。当我们在后面第 
8幸和第10章中遇到这些抵念时，我们将重新 Bf 到加我的问超上> 并逐渐向你掮开它的神秘面紗. 

对于不够有耐心的读者，下面是关于加栽实际是如何工作的一个 概述： Unix 系统中的每个钱序都 
运行在一个进程上下文中 t 这个进程上下文有自己的虚拟地址空间.当 shell 运行一个程序时，父 shell 
进程生成一个子进程，它是父进往的一个复制品.子进程通过 
涂子进租已有的虚拟存储器段，并喇建一组新的代码、数据、堆和栈段，新的栈和堆段被初始化为零. 
通过将虚拟地址空间中的页玦射到可执行文件的页大小的组块 （chunks), 新的代瑪和数据段被初始化 
为可执行文件的内容 . 最后，加载器跳转到 jtart 地址，它最终会调用应用的 main 函數，除了一些头 
部信息，在加栽过程中没有任何从磁盘到存倚蒸的数据拷直到 CPU 引用一个被映射的虚拟页， 
才会进行拷贝，此时，搮作系统利用它的頁面调度机 ♦) 自动将页面从磁盘传送到 存铺象 


系洗调用启动加栽器。加我器刪 


exeeve 


练习睡 7.5 

A. 为什么每个 C 程序都需要一个叫做 main 的函数？ 

B. 你想过为什么 C 的 ! nain 函欸可以通过调用 exit 或者执行一条 return 语句，或者两者都不做， 
而程序仍然可以正确终止吗？请解释 . 


7.10 动态链接共享库 

我们在 7.6,2 节中研究的静态库针对的汴多问题是应用程序如何使用大量可用的相关函数 5 然 
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而， 静态库仍然有一些明显的缺点。静态库和所有的软件一样，需要定期维护和更新。如果应用裎 
序员想要使用一个库的最新版本，他们必须以某种方式了解到该库的更新情况，然后显式地将他们 
的程序与新的库重新 链接。 

另一个问题是几乎每个 C 枵序都使用标准 I/O 函数，比如 primf 和 scauf, 在运行时，这些函数 
的代码会被复制到每个运彳丁进程的文本段中。在一个运行50〜100个进程的典型系统上，这会是对 
稀少的存储器系统资源的极大浪费。（存储器的 - 个有趣属性就是$论-个系统中冇多人的#储器， 
它总是一种稀有的资源。磁盘空间和厨房的垃圾桶同样有这种属性 d 

共享库 ( shared library) 是致力子解决静态库缺陷的一个现代创新产物 D 共享库是 个 口标模 

块，在运行时，可以加载致任意的存储器地址，并在存储器中和一个程序链接起来。这个过 程称％ 
动态链接 （dynamic linking) ，是由一个叫做动态链接器 (dynamic linker) 的程序來执行的。 

共享库也称为共享目标 （shared object), 在 Unix 系统中通常用 ，so 后缀来表小。微软的操作系 
统大董 地利用了共亨.库，它们称为 mx ( 动态链接库)。 

共宇库的“共享”在两个方面有所不同，首先，$仟何给定的文件系统屮，对 f 一个库只有一 
个 .so 文件。所有引用该库的 PJ 执行 R 标文忭共享这个 .so 文件中的代码和数据，而不是像静态库的 
内容那样被拷贝和嵌入到引用它们的可执行的文件中。其次，在#储器中，一个共享库的 .text 竹只 
有一个副本 nj 以被不同的正4运行的进程共卓。在第10章我们学习虚拟存储器时将更加详细地讨治 
这个问题。 


图 7 」 5 槪括/图 7 . 6 中小•例程序的动态链接过程。为了构造图 7 , 5 中向 1 运算小例程序的共享 
Jf . libve € tor , so ： 我们会调用编译器，给链接器如>特殊 指令： 


unix> gcc -shared -fPIC 


Ubvector，so addvec. c mul tvac. c 




. c vector.h 


翻译器 

: cph ccl 』 as) 


libc.ao 
libvector,ac 


口 i 重定位 y 标文件 


f 定杧和 
衧号表信息 


main2 .o 


链接器 (1 ⑴ 


部分链接的 
可执行 FI 标文畔 


p 2 


加 g 器 


libc ,30 

libvector , a 


(execve) 


代码和数据 


存储器 中完全 
链接的可执 tri 件 


动态链抟器 （ ld-linux I SO) 


7.15 用共享库来动态链接 


1] 


C.< 
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- fPIC 选项指示编译器生成与位置无关的代码（下一节将详细讨论这个 问题 h - shared 选项指另 
链接器创建一个共享的9标文件 * 

旦我们创建了这个库，我们随后就要将它链接到图 7.6 的示例程序中 a 


■■ 


unix> gcc -o p2 main2,c ,/libvector.so 


这样就创建了一个 nl 执行 H 标文件 p 2, 而此文件的形式使得它在运行时可以和 libvectorso 
接。基本的思路是当创建町执行文件时 f 静态执行一些链接，然后在程序加载时，动态完成链接 




过程, 


认识到这一点是很重 要的： 在此时刻，没有任何 Hbvectorso 的代码和数据节被真的拷贝到可执 
行文件 ？ 2中 4 取而代之的是，链接器拷贝了一些重定位和符号表信息，它们使得运行时可以解析对 

libvectorso 中代码和数据的引用。 

当加载器加载和运行 n 〖执行文件 p 2 时，它利用 7.9 节中讨论过的技术，加载部分链接的可执行 
文件 p 2, 接着，它注意到 p 2 包含一个 . inteip 节，这个节包含动态链接器的路径名，动态链接器本 
身就是一个共卓 E 3 标（比如，在 Limix 系统上的 LD - LINUX . SOX 加载器不再像它通常那样将控制 
传递给应用 f 取而代之的是加载和运行这个动态链接器。 

然后，动态链接器通过执行 F 面的重定位完成链接 任务： 

• 重定位 libc . so 的文本和数据到某个存储器段。在 IA 32/ Limix 系统中，共享库被加载到从地 

址 0 x 40000000 开始的区域中（参见图7,13)。 

* 重定位 libvector . 如的文 本和数据到另 ™ 个存储器段。 

• 重定位 p 2 中所有对甶 libc . so 和 lib vector , so 定义的符号的引用。 

最后，动态链接器将控制传递给应用程序。从这个时刻开始，共享库的位置就固定了，并 H . 在 
程序执行的过程中都不会改变。 


7.11 从应用程序中加载和链接共享库 


到此刻为止，我们已经讨论了在应用程序执行之前，即应用程序被加载时，动态链接器加载和 
链接共享库的情景 D 然而，应用程序还可能在它运行时要求动态链接器加载和链接任意共享库，而 
无需在编译时链接那些库到应用中 a 

动态链接是〜项强大有用的技术，下面是一些现实世界中的例子 r 

• 分 发软件 .微软 Windows 应用的开发者常常利用共享库来分发软件更新。他们生成一个共 

享库的新版本，然后用户可以下载，并用它替代当前的版本。下一次他们运行应用程序时, 
应用将自动链接和加载新的共享库。 

• 构建高性能 Web 服务器 。许多 Web 服务器生成动 态内容 f 比如个性化的 Web 页面、账户余 
额和广吿标语。早期的 Web 服务器通过使用 fork 和 

的上 F 文中运行 CGI 程序，来生成动态内容。 然而， 现代高性能的 Web 服务器可以使用基 
于动 态链接的更有效和完菩的方法来生成动态内容。 

其思路是将生成动态内容的每个函数打包在共享库中当一个来自 Wfeb 浏览器的请求 
到达时，服务器动态地加载和链接适当的函数，然后直接调用它，而不是使用 fork 和 
在子进程的1：下文中运行函数。函数会一直缓存在服务器的地址空间中，所以只要一个简 


创建一个子进程，并在该子进程 


exccve 


execve 
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单的函数调用的开销就可以处理随后的请求了。这吋-个繁忙的 N 站來说是有很大影响的。 

吏进一成，可以在达行时， X 耑停 N : 服务器，更新己存在的函数 * 以及添加新的函数。 

像 Linux 和 Solaris 这样的 Unix 系统，为动态链接器提供： 个 简单的接门， 允许应 用程序 /1_ 

运打吋加载和链接共卓库， 


\ include <dlfcn.h> 


void *dlopen (consL char *f i lenaTne P in 匕 flag) 


返 0: 若成功则为指向句柄的指针 ， 若出错则为 Null 


dlopen 函数加载和链接共享库 filename ,用以前带 RTLD„GLOBAL 选项打开的库解析 filename 

中的外部符号.如果当前可执行文件是带 -rdynamk 选项编译的，那么对符号解枳它的命局符 
号也 fe 可用的。 flag 参数必领要么包括1(110_?40^^该标志告诉链接器立即解析对外部符号的引用， 

要么包括 RTLD_LAZY 标志，该标志指小链接器推迟符呤解析直到执行来&库中的代码时。这两^ 
值中的任意八都 W 以邛 RTLD.GLOBAL 标志取或。 


4 inciuac <dlfcn,h> 


void *dlyym(void *handle P char * symbol); 


返®:若成功則为栺向符号的指计，若出错则为 NW。 


dlsym 凼数的输入是一个指句前面 C 经打开共享库的句抦和-个符号名宁，如果该符3存在， 
就返回符 ☆的 地址，荇則返 W NULL。 


#inc j ude <difen,h> 


I nL dlclose {void ^handle}; 


近回：若成功则为 (h 若出错则为 


如果没有其他共+:库还在使用这个共爭库， dldose 函数就卸载该共享库。 


# include < di±cn * h > 


const ch^x *dieiror(void); 


返回：如果前面对 dlopen, dlsym 或 d]cbse 的调用失败， 

則为错误消息，如果前面的调用成功，则为 Nu]L 

dierror 闲数返 H -个字符串，它 描迠的 是调用 dlopen, dlsym 或者 dlclose 函数时犮生的最近的 
错误，如果没有错误发生，就返回 NULL。 

阁 7.16 展小 f 我们如何利用这个接 n 动态链接我们的 libvector.so 共爭库 （图 7.5), 然后调 ffl 它 
PjaddvecIMJf, 要编评这个程序，我们将以下面的方式调用 GCC: 


uriix> gcc - rdyndmic -02 -o p 3 m ^ in 3 - c - Idl 


code/link/dlic 


1 #inciucie <stdio . h > 

2 #include <dl£cn.h> 


int. x\?' 

I 


4 


(1,2): 
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5 int y{2] - {3, 4} 

6 int z [2 ]； 


7 


8 inz mainU 


10 


void * handle ； 

void [ *addvec){int 
char *error ； 


int 


int 


int); 


11 


■* 




12 


13 


dynamically load the shared library that contains addvecf) 

handle = dlopen (", /1 ibvector. so 11 F KTLD_LAZY) 
if iJhandle)( 

fprintf (stcierr, n %^\n\ dlerror (})； 
exit(1); 


14 


15 


16 


17 


18 


20 


21 


/* get a pointer to the addvecQ function we just loaded 

addvec = dlsym(handle, ^addvec*); 
if ((error ^ clerror!)) != MJLL) { 

fprintf(stderr 
exit (1); 


22 


23 


24 


%sNn 




error )； 




25 


26 


27 


Now we can call addvec() just like any other fiinctioti */ 

addvec(x f y f z, 2); 

prir.tft 11 z = l%d %dj\n' z [ 0 ] , z [ 1 ])； 


28 


29 


30 


31 


32 


unload the shared library */ 
if {dlclose(handle) < 01 ( 

fprintf (stderr, ^sVn 11 , dlerror ())； 
exit (1 :i ; 




33 


34 


35 


36 


37 


return 3 ; 


33 } 


code/link/dlic 


7」 6 —个动态加载和链接共享库 libvedor . so 的应用程序 


旁注： 共車库和 Java 本地接 □ 

Java 定义了 一个标求调用规則-叫做 Java 本地接 o ( Java Native Interface ? JNI ), 它允许 Java 

程序调用“本地的 h (：和 C ++* 数， INI 的基本思想是将本地 C * 數，比如说 foo , 編译到共享库中， 
比如说 foaso , 当一个正在运行的 lava 钱序试困调用 A_foo 时， Java 解释程序利用 dlopen 接口（或 
者某个类似于此的东西）功态链接和加栽 foaso , 然后再调用 foo . 


7.12 * 与位置无关的代码 ( PIC ) 

共享库的一个主要目的就是允许多个正在运行的进程共享存储器中相同的库代码 t 因而节约宝 
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贵的存储器的 资源， 那么，多个进枵是如何共享…个程序的，个拷51的呢？ 一 种方法是给每个共享 
库分 K 一个事先预备的专用的地址空间组块 （chunk), 然后要求加载器总觅在这个地址加载共卓库。 
虽然这种方法很简单，但是它也造成 r 一些严重的问题。 W 先，它对地址空间的使用效率不高，因 
为即使一个进稈不使用这个庠，那部分空间还是会被分配出来。第二，它也难以管理。我们将不得 
不保证没有组块会重叠.每次当一个库修改了之后，我们必须确认它的 己分配 的组块还适合它的人 
小。如果不适合了 f 我们必须找一个新的组块。并 R, 如果我们创建了个新的库，我们还必须为 
它寻找空间。随着时间的进展，假设在一个系统中有了成百个库和各种版木的库，就很难避免地址 
空间分裂成大量小的、末使用而又不再能使用的小洞。甚至更糟的是，对每个系统而言，从库到存 
储器內分配都是不同的，这就引起了更多令人头痛的管理问题。 

种 更好的方法是编译库代码，使得不需要链接器修改库代码，就可以在任何地址加载和执行 
这鵠代码 * 这样的代码叫做与位 置无关的代码 （ position-independent code, PIC )。 用户对 GCC 使用 

-fPIC 选项指不 GNU 编译系统生成 PIC 代码。 

在一个 IA32 系统中，对同一个目标模块屮过程的调用是不需要特殊处理的，因为引用是 PC 相 
关的， d 知偏移董，就己经是 PICT (参见练习题 7.4h 然而，对外部定义的过程调用和对全局变 
量的引用通常不是 PIC， 因为它们都要求在链接时重定位。 


7.12.1 PIC 数据引用 

编译器通过运用以下有趣的事实来生成对全局变量的 pic 引用： X论我们在存储器中的何处加 
载一个 g 标模块（包括共享目标模块)，数据段总是分为紧随在代码段后面。因此，代码段中任何 
指令和数据段中任何变里之间的距离都是个运行时常量，与代码段和数据段的绝对存储器位置是 


无关的 


为了运用这个事实 * 编译器在数据段开始的地方创建了一个表，叫做 全局偏移量表 (global offset 
table, GOT). GOT 包含每个被这个 H 标模块引用的全局数据□标的表编译器还为 GOT 中每个 

表 FI 生成■个電定位记录。在加载时，动态链接器会重定位 GOT 中的每个表0，使得它包含正确 
的绝对地址。每个引用全局数据的 B 标模块都有.■张 ft 己的 GOT。 

在运行时，使用下面的代码形式，通过 GOT 间接地引用每个全局 变量： 


Cdll LI 

LI: popl %ebx; 

adc31 $VAROFF, %ebx 
movl (%ebx), %eax 
movl (%eax) f %eax 


# ebx contains the current PC 

# ebx points to the GOT entry for 

# reference indirect Chrouah the GOT 


var 


在这段代码中，对 Ll 的调用将返回地址 t 正好就是 popl 指令的地址）压入栈中。随后， popl 
指令把这个地址弹出到％£以中。这两条指令的最终效果是将 PC 的值移到寄存器％出叉中， 

指令 addl 给％咏\增加-个常量偏移量，使得它指向 GOT 中适当的表目，该表 R 包含数据项 

的绝对地址。此时，就可以通过包含在中的 GOT 表目间接地引用全局变量了 □ 在这个示例中, 
两条 movl 指令（间接地通过 GOT) 加载全局变董的内容到寄存 S%eax 巾。 

PIC 代码有性能缺陷。现在每个全局变量引用需要五条指令而不是一条，还需要一个额外的对 
GOT 的存储器引用。而 EL, PIC 代码还要用一个额外的寄存器来保持 GOT 表3的地址.在具有大 
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寄存器文件的机器上，这不是一个大问题 D 然而，在寄存器供应不足的 IA 32 系统中，即使失掉一 
个寄存器也会造成寄存器溢出到栈中。 


7.12.2 PIC 函数调用 

PIC 代码当然可以用相同的方法来解析外部过程调用 


call L1 

L1 : popl %ebx; 

addl $PROCOFF f %ebx 
call *(%ebx) 


# ebx contains the current PC 

# ebx points to GOT entry for proc 

# call indirect through the GOT 


不过，这种方法对每一个运行时过程调用都要求三条额外的指令。取而代之， ELF 编译系统使 
用一种有趣的技术，叫做延迟绑定 （hzy binding ) ,将过程地址的绑定推迟到第一次调用该过程时。 
第一次调用过程的运行时开销很大，但是其后的每次调用都只会花费一条指令和--个间接的存储器 


引用, 


延迟绑定是通过两个数据结构之间简洁但又有些复杂的交互来实现的，这两个数据结 构是： 
GOT 和 PLT (procedure linkage table , 过程链接表)。如果 一个目 标模块调用定义在共享库中的任何 
函数，那么它就有自己的 GOT 和 PLT 。 GOT 是 . data 节的一部分， PLT 是 . text 节的一部分。 

图 7 . 17 展示了图 7 上中示例程序 main . o 的 GOT 的格式，头三条 GOT 表 B 是特 殊的： GOT [ 0 ] 
包含, dynamic 段的地址，这个段包含了动态链接器用来绑定过程地址的信息，比如符号表的位置和重 
定位信息 I GOT [ U 包含一些定义这个模块的信息； G 0 T [ 2 ] 包含动态链接器的延迟绑定代码的入口点. 


地址 


表目 


内容 


GOTfO] 0804969c .dynamic 节的地址 

GOT[l] 4W0a9R 链接器的标识信息 

COT{2] 4000596T 动态链接器中的入口点 

GOTE3] _&45a PLT [〗】 中 pushJ 地址 （ pdmf) 

GOT[4] 0804& 46a PLT[2 ] 中 pushl 地址 (addvec) 


0S049674 


08049678 


0804967c 


OSQ496SO 


0S0496B4 


7 . 17 可执行文件 p 2 的全 局偏移置表 （ GOT ) 




原始代码见 ffi 7.5 和图 71 

定义在共享 R 标中并被 main 力调用的每个过程在 GOT 中都会有一个表目，从 GOT [ 3 ] 表目开始。 

对于示例程序，我们给出了 printf 和 addvec 的 GOT 表目， printf 定义在 libc . so 中，而 addvec 定义 
在 libvectorso 中。 

7 . 18 展示了我们示例程序 p 2 的 PLT , PLT 是一个 16 字节表 H 的数组。第一个表目 PLT [ 0 ] 

是一个特殊表它跳转到动态链接器中。每个被调用的过程在 PLT 中都有一个表从 PLT [ 1 ] 
开始。在图中， PLT 〖 1 ] 对应于 printf ， PLH 2 ] 对应于 addvec . 


PLT[0] 

C8048444; ff 35 78 96 04 03 pushl 0x8049678 
804344a: ff 25 7c 96 04 08 jmp 
804 & 450: 00 00 


# push &G07[1] 

OxG04967c # jmp to *G0T[2](linker) 

# padding 
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30484^2 ： 00 00 


# padding 


PIjT[ 1 ] <print £> 


904R454 ： EC 25 80 9b 04 08 jmp 
80484bd ： 58 00 00 00 00 
30484b£ : [9 qG ff ff £E 


* 


0x8049680 


括 jmp to *GOT[3] 
社 ID for printf 

梓 jntp to PLT[ 0 ] 


pushl 50x0 
jmp 3048444 


PLT[2] <addvec> 


B048464: f£ 25 84 95 04 08 jmp 
804846a ： 6B 08 00 00 00 
804846f 


★ 


0x8049684 


# jump to *GOT[4] 

# ID fcr addvec 

# jmp to PLTfOj 


pushl $0x8 

]irp 8048444 


dO ff fE ff 


<other PLT entries 〉 


7.18 可执行文件 P 2 的 PLT 




姑代码见阐 7 . 5 和阁 7 .匕 


初始地，在程序被动态链接并开始执行后，过程 printf 和 addvec 被分别绑定到它们相应的 PLT 
表「1巾的第-条指令上 t 比如，对 addvec 的调用冇如下 形式： 

804G5bb ： eS a4 te ff. ff call 8048464 (addveo 

当 addvec 第次被调用时，控制传递到 PLT[2] 的第一条指令，该指令通过 G0T[4] 执打一个间 

接跳转。初始地，每个 GOT 表 n 包含相应的 PLT 表 g 中 pushl 表 n 的地址。听以， PLT 中的间接 

跳转仅仅是将拧制转移回到 PLT [2] 中的 F 条指令。这条指令将 addvec 符吁的 1D 味入栈中。最后 

一 条指令眺转到 PLT[01 t 从 G0T[1] 中将另外一个标识佶息的字压入栈巾，然后通过 GOT[2] 间接跳 

转到动态链接器中。动态链接器用两个栈表0来确定 addvec 的位置，用这个地址覆盖 GOT [4]， 汴 
把拧制传递给 addvec 。 

卜一次 在程序中调用 addvec 时，抟制像阶面一样传递给 PLT[2] d 不过这次通过 G0T〖4] 的间接 
跳转将拧制传递给 addvec, 从此刻起，惟一额外的幵销就是对间接跳转的存储器引用。 


7.13 处理目标文件的工具 


在 Unix 系统屮嵙大量 n ! 用的工具 nj 以帮助你理解和处理^标文件。特别地 ， GN U binutiis 包尤 
其有帮助，而 y.nj 以运行在每个 Unix 平台丄 D 

AR ： 创疰静态库，插入、刪除、列出和提取成员。 

STRINGS : 列出个 ㈣ 标文件中所有可仃印的字符串。 

STRIP ： 从 H 标文件中删除符弓表信息， 

跳 列出一个0标文忭的符号表中定义的符号， 

SIZE ： 歹 I ，出 H 标文件中节的名字和大小 D 

READELF : 显不■个 H 标文仃的完整结构，包括 ELF 头中编码的所有倍息。包含 SIZE 和 
NM 的功能。 

objdump ： 所冇二进制1:具之母。能够显小一个 n 标文件中所冇的信息。它最有用的劝能 

是反汇编 .text 节中的一进制指令 t 


« 


■ 


9 
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Unix 系统为操作共享库还提供了 ldd 程序： 

• ldd: 列出一个可执行文件在运行时所需要的共享库。 


7,14小结 


链接可以在编译时由静态编译器来完成，也可以在加载时和运行时由动态链接器来完成。链接 
器处理称为目标文件的二进制文件，它有二种不同的 形式： 吋重定位的、 nj 执行的和共享的 。可甫 
定位的 R 标文件由静态链接器组合成-个可执行的目标文件，它可以加载到存储器中开执行。共享 
H 标文件（共享库）是在运行时由动态链接器链接和加载的，或者隐含地在调用程序被加载和开始 
执行时，或者根据需要在程序调用 d ] open 库的函数时。 

链接器的两个 i 要任务是符号解析和重定位 4 符号解析将3标文件屮的每个全说符号都绑定到 
- a 惟-的定义，而電定位确定每个符号的最终存储器地址，并蝥改对那些目标的引用 

静态链接器是由像 gcc 这样的编译器调 月的。 它们将多个町重定位 n 标文件组合成一个单独 
的可执行 H 标文件。多个□标文件可以定义相同的符号，而链接器用来悄悄地解析这些多处定义的 
规则可能在用户程序中引入的微妙错误 Q 

多个 R 标文件可以被连接到一个单独的静态库中。链接器用库来解祈其他幻标模块屮的符号引 
用。许多链接器通过从左到右的顺序扫描来解析符号引用，这是另…个引起令人迷惑的链接时错误 


的来源 


加载器将可执打文件的内容映射到存储器，并运行这个程序。链接器还4能卞成部分链接的可 
执行 H 标文件，这样的文件中有未解析的到定义在共享库中的程序和数据的引闱 4 在加载时，加载 
器将部分链接的可执行文件映射到存储器，然后调用动态链接器，它通过加载共亨库和重定位程序 
中的引用来完成链接任务。 

被编译为位置无关代码的共享库可以加载到任何地方，也吋以在运行时被多个进程共亨。为了 
加载、链接和访问共享库的函数和数据，应用程序 还可以 在运行时使用动态链接器。 


参考文献说明 

在汁 算机系统文献中并没有很好地记录链接。因为链接是处在编译器、计算机体系结构和操作 

系统的交叉点上，它要求理解代码生成、机器语言编稈、稈序实例化和虚拟存储器。它恰奸不落在 

某个通常的计算机系统专业中，因此这些领域的经典文献并没有很好地描 述它。 然而， Levine 的专 

著提供了有关这个主题的很好的-般性参考资料[47〗。[35〗描述了 ELF 和 DWARF 的原始规范 
(对 .debug 和 .Une 节内容的规范说 明〉。 

围绕二进 制鉬译 (binary translation) 的概念有一些有趣的研究和商业活动，二进制翻译包括 L1 
标文件内容的语法解析、分析和修改。二进制翻译有 H 个不同的 R 的 [46j : 在一个系统上模拟另' 
个系统，观察程序行为，或是执行不能在运行时执行的与系统相关的优化。-些商仆产品，比如 
VTune, Purify 和 BoimdsChecker， 用二进制翮译来为程序员提供对他们程序的详细的观察 D 

Atom 系统提出了一个炅活的机制，能为 Alpha 町执行 R 标文件和共享库提供任意的 C 函数。 
Atom 被来创建无数种分析丄具，包括跟踪过程调用、剖析指令计数和存储器引用模式、模拟行: 
储器系统行为，以及隔离存储器引用错误6 Etch[66] 和 EEL[46] 在不同的平台上提供了人致相似的功 
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能。 Shade 系统利用二进制翻译实现指令剖析 [15]。 Dynamo[2] 和 Dyni ns t[8] 提供了一些机制，能在 
运行时为存储器中的可执行文件提供测试和优化= Smith 和他的同事们致力 f 研究程序剖析和优化 
的二进制翻译191]。 

家庭作业 


7.6 




考虑卜面的 swap.c 函数，它计算自己被调用的次数: 


extern int buf[]; 


Int *bufpO 二 &buf[0]; 
static int *bufpl ； 


4 


static void incr[) 


static int count=0; 


10 


count + 十 


11 


12 


13 void swap() 

14 ( 


15 


int temp ； 


16 


incr (); 

bufpl - tbuf[1] 
二 emp = *bu£p0 ; 

*biifp0 = * bufpl 

*bufpl = t emp ； 


17 


18 


19 


20 


21 


22 


对于每个 swap_o 中定义和引用的符号 f 如杲它在模块 swap*o 的 .symtab 节中存符号表表 R ，请 
指出。如杲是这样，请指出定义该符号的模块 （swap.o 或 main.o)、 符号类型（本地、全局或外部) 
以及它在模块中所处的节 〔.text、.data 或 ibssh 


符号 


swap.o.symtab^g 


符号类型 


定义符号的横块 


buf 


bufpO 


swap 
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不改变任何变量名字，修改 7,6.1 小节的 bar 5. c ， 使得 foo 5 x 输出 x 和 y 的 iE 确值（也就是整数 
15213和15212的十六进制表示） 


0 


7.8 


在此题中， REF ( x t i ) -> DEF ( x t k ) 表示链接器将任意对模块 i 中符号 x 的引用与模块 1 c 中符号 
的定义相关联。在下面每个例了-中，用这种符号来说明链接器是如何解析对在每个模块中有多个定 

义的引用的。如果出现链接时错误（规则1)，输出 “ ERROR ”。 如果链接器从定义中任意选择一个, 
那么输出 “UNKNOWN 


X 




A . 


/* Module 1 
int main() 


/ * Module 2 */ 
static int rr,din=l; 

int p2 () 


(a) REF(main,1) 

(b) REF(main.2) 


DEF( 

DEF( 


一一 > 




B . 


/ * Module 1 

int x; 

void main () 


/ * Module 2 */ 
double 

int p2() 


x 


(a) REF(x,l) 

[b) REFfx.2) 


> DEF( 
DEF( 






C + 


/* Module 1 */ 
int x=l ； 
void main (； 


卜 Module 2 */ 

double x=l*0 ； 

inL p2() 


(a) REF(x-；) 

(b) REF(x.2) DEF( 


> DEFl 
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考虑下面的程序，它白两个口标模块 组成: 


卜 foo6 


* 


C 


void p2(void ); 


4 


int min() 


p2 (}; 


return 0 


/* barb 


c 


ttinclude <stdio*h> 


char nair]; 


6 


void p 2 () 


printf ( lp Cx%x\n 


maini ； 


3 在 Linux 系统 6 编译和执行这个程序时，即使 p2 不初始化变景 main, 它也能打印字符中 
Ox55\n” 并 IK 常终土，你能解释这一点吗 
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和 b 表 W 当前路径中的 H 标模块或静态库，而 a->b 表禾 a 依赖于 b , 也就是说 a^l 用了一个 

b 定义的符号。对于卜面的每个场景，给出使得静态链接器能够解析所有符号引用的最小的命令行 
(:也就是，含有最少数鼋的0标文件和库参数的命令) s 


r d 


A. p,o 

B. p ■ 。 

C p.o — libx 


libx, a 


― » 


—► 




— liby ,a and liby .a 

1 ibz * a and liby 


libx,a. 


l ox, a 




liby 


libx* a 


libz.a. 


a 




a 




― ► 


―卜 


■ 


ri 


7.12 中的段爻表明数据段占用了存储器中 0 X 104 个字芍。然而 t 只有开始的 OxeS 字节来已 
吋执行文件 的节。是什么引起了这种差异？ 

7.12 ♦♦ 

110中的 swap 程序包含5个電定位的引用。 对下每 个重定位的引用，给出它在图 7.10 中的 
打号、它的运行时存储器地址和它的值。 swap . o 模块中的原始代码和重定位表目如图7,19所示。 

图: M0 中的行号 


地址 


00 C 1 00000 <swap> : 

0 ; 55 

1; 8b 15 00 00 30 00 


push %ebp 

0 x 0 , %ed>c 


get x bujp 0 =& huf [ 0 } 

bufpO relocation entry 

get buffi / 


mov 


3 : R 336 3 ? 


1 \ al 04 00 00 00 




0 x 4 ,%eax 


mov 
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relocation entry 


buf 


81 R 386 32 


%esp r %ebv 

$0x4,0x0 


S9 e5 

q! 05 00 0G 00 00 04 movl 
lb: CO 00 00 


mov 


c: 


bujpl =&b^W ； 


e : 


10 : R _3 8 e _3 2 bufpl relocation ^nfry 

relocation entry 


10 


14: R,386^32 buf 
mov %ebpi%esp 


U 


12 13: 89 

13 lar 8 b 0a 

14 lc' 89 02 

15 le: al 00 00 00 00 


ec 


temp = buflO]; 

buflOl^buflih 

get *bufpl=&buf[t J 
bu fpl relocation entry 

buf[lj-t€mp; 


(%edx),%ecx 

(%edx) 
0 x 0 ,%eax 


mov 


mov 


mav 


If: R_386_32 


16 


%ecx H (%eax) 

%ebp 


17 23 : 89 OS 

18 25 ： 

1 9 26 ： c3 


mov 


pop 

ret 


7+19 练习题 7*12 的代码和重定位表目 


7.13 ♦♦♦ 

考虑图120中的 C 代码和相应的可重定位目标模块。 

A. 确定当模块被重定位时，链接器将修改 .text 中的哪些指令 . 对与每条这样的指令，列出它的 

重定位表 H 中的 信息： 节偏移、重定位类型和符号名字。 

确定当模块被重定位时，链接器将修改 .data 中的哪些数据目标。对于每条这样的指令.歹!| 

出它的重定位表目中的信息：节偏移、重定位类型和符号名字。 

吋以随便使用诸如 OBJDUMP 之类的工具来帮助你解答这个题 H 。 


B 


extern int p3(void )； 
int x 

int *xp ; 


void p 2 [int y) { 


void pl(] { 


p 2 ( + xp + p3()); 


10 } 


(a)C 代码 


00000000 <p 2 >: 

0^ 55 

1 ： 99 e5 
3: S 9 


i 


push %ebp 


%esp,%ebp 
%ebp,%esp 


mov 


ec 


ruov 
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%ebp 


5: 5 d 


pop 


6: c3 

00000008 <pl >： 

3: 55 
9 : 89 eb 


ret 


7 


push %ebp 


%esp,%ebp 
$0x8,%esp 

£0xff£fEff4,%esp 
12 <pl+0xa> 

%eax；%edx 
0x0 ； %eax 
(^eax) f Sedx 

%edx 

<pl +()xl i 3> 
%ebp,%esp 
%^bp 


mov 


b ： £3 ec 03 


sub 


1 U 


add 


■l 气 

丄丄 


e: 83 c4 f4 


11: e3 fc ff ff ff 


call 


12 


13 


16: 89 c2 


mov 


18: al 00 CO 00 CO 


14 


mov 


：5 


Id: 03 30 


a-dd 


：6 


IE ： S2 


push 

call 


17 


20: e8 fc f[ f: ff 


18 


25: 39 ec 


[ T\OV 


19 


27 ； 5d 


pop 


20 


2H ： c3 


ret 


lb ) 可审定■位 R 标文件的 .〖 ext 节 


UOOUOOUO <x>: 


0; 01 00 DO 00 


00000004 


<xp> : 


4: 00 CO CO 00 


( c ) 可軍定位 U 籽文忭的 data 节 


7.20 练习题 7.13 的示例代码 


7.14 ♦♦♦ 

考虑图 7.21 +的 C 代码和相应的可重定 位口标 模块. 

a , 确定3模块被重定位时，链接器将修改 . t ex t 巾的哪些指令。对 r 每条这样的指令.列出它的 
電定位表0屮的 信息 ： W 偏移、重定位类型和符号名字. 

B . 确定当模块被重定位时，链接器将修改 . rodam 中的哪些数据。对于每条这样的指令， 列山它 
的重定位表 H 中的 信息： 节偏移、1定位类型和符号名字。 

可以随便使用诸如 OBJDUMP 之类的 I .具宋帮助你解答这个题 


int relo3(int v^l) { 

switch (va.1! { 


100 ; 


case 


return(val}; 


case 10 j 


return[val+1 )； 

case 103: case 104 ： 
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return(val+3 )； 
case 105 ： 


10 


returnsval+5) : 


default; 


11 


12 


return tvaU) r 


13 


Id 


U) C 代妈 


1 00000000 <re)o3>: 

2 0 ： 5b 

3 1 ： 89 e5 

4 3 ： 8b 45 03 

5 6: 8d 50 9c 


iebp 

%esp f %ebp 

0x8 (%ebp) f %esiX 

OxCfffff9c(%eax),%edx 

S0x5 f %edx 

25 <relo3 +0x2E> 

OxC(,%edx r 4) 

%eax 

28 <rela3+0x28> 

S0x3 r %eax 
28 <relo3 +0x28> 

0x0f%esi),%esi 
$0x5,%eax 
23 <relo3+0x28> 

$0x6,%eax 
%ebp f %esp 

%ebp 


push 


mo\' 


mov 


lea 


9: 83 £a 05 


cmp 


7 17 


ja 


c 


ff 24 95 00 OD 00 00 


jmp 


* 


e : 


15r 40 

16 ： eb 10 

18 ： 83 cO 03 
lb ： eb Ob 
id: 3d 76 GO 
20: 83 cO 05 
23 ; eb 03 
25: 83 cO 05 


inc 


10 


〕即 


11 


add 


12 


jnp 

lea 


13 


14 


add 


15 


]mp 


16 


add 


17 


28: 39 ec 


mov 


18 


2a: 5d 


pop 


19 


2b: c3 ret 


( b ) 可重定位 P 标文件的此 xt 节 


This is the jump table for the switch statement 

0000 23000000 15000000 25000000 1 8000003 4 words at offsets OxO,0x4, 0x8 1 and Oxc 
3 0010 18000000 20000000 


2 


2 words at offsets 0x10 and Ox J 4 


U) 可重定位 H 标文件的』《 1 細节 

7.21 练习题7,14的示例代码 


7.15 ♦♦♦ 

成下面的任务将帮助你更熟悉处理 H 标文件的各种工具。 

A . 在你的系统上， lib > c 和】 ibm . a 的版本中包含多少目标文件? 




兀 
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B . gcc -02 产生的町执行代码与 gtx -02- g 产生的不同吗? 
C d 你的系统上， GCC 驱动程序使用的是卄么 K 亨.库？ 


练习题答案 

练习题7,1答案 

这道练习题的 H 的是帮助你理解链接器符号和 C 变景及邊数之间的关系 4 注意 C 的本地变量 
temp 没有符号表表 H 。 


符号 swap . o.symtab 表目? 


符号类型 在 W 个镇块 中定义 节 




是 


■ data 


红 lem 


ma 1 n T y 


bufpO 




. data 


global 

global 


swap.0 


bufpi 


是 


■ bsa 


swap.o 


h 


global 


■ t ext 


swap 


swapio 


7f 


tenp 


练习题 72 答案 

这是 个 简申的练习，检査你对 Unix 链接器解析定义在一个以上模块 n 的全局符号时所使用规 
则的理解。理解这些规则可以帮助你避免…些讨厌的编程错误。 

A . 链接器选择定义在模块1中的强符号，而小是定义在模块2中的弱符号（规则 2): 


(a) REF (mair』■ 1) 

(b) REF(main.2) --> DEF{main,11 


DEF(main.1) 




B . 这是一个错误，因为每个模块都定义了一个强符号 main (规则1)。 

C . 链接器选择定义在模块2中的强符号，而不是定义在模块1中的弱符号（规则 2); 


(a) HEF(X,1( 
(h) REF(x*2} 


--> DEF(x t 2) 

DEF [x.2) 


-- > 


练习题 7.3 答案 

在命令行中错误地放置静态库的位置是造成令许多程序员迷惑的链接器错误的常 兇原因 。然而, 

旦你理解了链接器是如何使用静态库来解析引用的，它就相当简申易懂了 D 这个小练习检查了你 
对这个概念的 理解： 




A. g 二 c p.o libx 

B. gcc p-o 1ibx * a liby 
C- gcc p,o libx 


. a 


a 


liby + a 1ibx - a 


a 


练习題 7.4 答案 

这道题涉及的是图 7.10 中的反汇编列表。在此，我们的 n 的是讣 你练习阅读反汇编列表，并检 
奄你对 PC 相关寻址的理解。 

A * 第5行被重定位引用的十六进制地址为 0 x 80483 bh D 

B . 第5行被重定位引用的十六进制值为0 x 9。记住，反汇编列表给出了小端法字节顺序表小的 
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引用值 


C- 这1的关键观察点是无论链接 器将把 xt 节定位在哪电，引用和 swap 蚋数间的距离总是一样 
的。因此，无论链接器将 .〖ext 节定位在何处，因为引用是一个 PC 相关地址，所以贷的值都将是0x9。 


练习题 7.5 答案 

对人多数程序员而言， C 程序实际是如何启动的是一个迷。这些问题检査了你对这个启动过程 
的理解 < 你吋以参考图 7.14 中的 C 启动代码来回答这些问题： 

A, 每个程序都 1 要一个 main 函数，因为 C 的启动代码对于每个 C 程序而言都是相同的，要跳 
转到一个叫做 main 的函数匕。 

B. 如果 main 以 reumi 语句终止，那么控制传递回启动程序 f 该程序通过调 S_exit 再将控制返 
N 给操作系统。如果用户省略了 return 语句，也会发生相同的情况，如果 main 是以调用 exit 终止的， 
那么 exit 将最终通过调 S_exit 将控制返回给操作系统，在所有三种情况中，最终效果是相同的：当 
main 完成时，控制会返回给操作系统。 
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从给处理器加电开始，直到你断电为出，程序计数器假设一个序列的值 


% A 


其屮： 每个叫 是某个相应的指令 A 的地址 s 每次从^到的过渡称为控制转移 Ccontiol 
transfer 乂这样的控制转移序列叫做处理器的控制流 (flow of control bK control flow). 

最简叭的-种抟制流是一个“甲滑的”序列，其中每个 A 和 U 在存储器 (memory；' 屮都是相 

邻的，典型地，这种 T 滑流的突变，也就是 / t+l 与 A 不相邻，是由珩如跳转、 调用 和返卜>1这样一些 

熟悉的程序指令造成的。要想使得秤印能够对山枵序变1表示的内部的秤序状态中的变化做出反应， 

这些指令是必要的机制。 

但是系 统也必须能够对系统状态的变化做出反应< 这些系统状态不是被内部程序变 tt 捕获的， 

而且也不一定要和程序的执行相关。比如，一个硬件定时器（或 it 时器）会定期产生倍号，这个事 
件必沏得到 处理； 包到达 N 络适 0d 器后，必须存放在4储器屮：程序向磁盘请求数据，然后休眠， 
直到被通知说数据 a 就绪 ： 当+进稈终山时，创造这些了进程的父进枵必领得到通知。 

现代系统通过使抟制流发1:突变宋对这些情况做出反应。…般而? T, 我们把这$突变称为 ECF 
(exceptional control flow， 异常控制流 h ECF 发生在计算机系统的各个层次。比如，在硬件层 t 硬 

件检测到的事件会触发控制突然转移到异常处理垾序，么操作系统 U， 内核通过上卜_文转换将控制 
从一个用户进程转移 t 另一个用广进程= 4:应用层，一个进程可以发送一个信号到另一个进程 ，而 
接收者会将拧制突然转移到它的•个信号处理程序。•个柠序 nJ 以通过回避通常的栈规则，并执行 

到其他函数中 任葸位 置的4木地跳转来对错误做出反应。 

作为程序员，理解 ECF 对你们来说很 甫耍， 这有很多原因： 

• 理解 ECF 将帮助你理解重要的系统概念。 ECF 是操作系统用来实现I/O、进枵和虚拟存储器 

的基本 机制。 在你 W 以 E 正理解这些重要槪念之前，你必须理解 ECF。 

• 理解 ECF 将帮助你理解应用程序是如何与操作系统交亙的。应用种序通过使 ffl —个叫做陷 

阱 (trap) 成者系统调用 (system call) 的 ECF, 向操作系统请求服务。比如 ， 向磁盘写数 
据、从网络读取数据、创建 t 个新进程，以及终 lh 当前进程，都是通过应用程序提交系统 
调来实现的。理解基本的系统调用机制将帮助你理解这些服务是如何提供给应用的。 

• 理解 ECF 将帮助你编写有趣的新应用程序 d 操作系统为疴用枵序提供 f 强大的 ECF 机制_ 

用来创建新进程、等待进程终 it、 通知其他进稈系统中的异常事仵，以及检测和响应这些 
車件。如果你理解这柱 ECF 机制，那么你就能用它们来编 K 诸如 Unix、shdl 和 Weh 服务器 
之类的有趣秤序了。 

• 理解 ECF 将帮助你理解软伴异常如何工作。 ； 象0+和 hva 这杆的语言通过 try、catch 以及 
throw 语切宋提供软件异常机制 6 软件异常允 IT 荇序进行非本地跳转〔也就是，违反通常的 
调用/返 M 栈规则的跳转）来响应错误情况。 j 卩本地 跳转是•-种应 Hi 展 ECF, fi:c 中足通过 
setjmp 和] ongjmp 函数提供的。理解这些低级闲数将帮助你理解岛级软件异常如何得以史现, 
到卜1前为[1_.，对系统的学 >] 使你己经了解应币是如何~硬件交4：的。这•章的重要性在 F 你将 
开始学习你的应用是如何与操作系统交互的。有趣的足，这哔交互郎是闱绕我们描述# 
在于•个计算机系统中 所有层 次上的各种形式的 ECF。 我们从异常 Jf 始，异常位 f 硬 彳1 和操作系统 
交界的部分。我们还会讨论系统调用，它们是力晻用程序提供到操作系统的入 U 点的异常。然后， 
我们会提升抽象的层次，描述进程和信号，它们位于应用和操作系统的交界之处。 M 后.我们将讨 
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论非本地跳转，这是 ECF 的一种应用层形式。 


8.1 异常 

异常是一种形式的异常控制流，它一部分是由硬件实现的，一部分是由操作系统实现的。因为 
它们有部分是由硬件实现的，所以具体铂节将随系统的不同而有所不同。然而，对于每&系统而 
言，基本的思想都是相同的。在这一节中我们的目的是让你对异常和异常处理有…个-般性的了解， 
井且帮助消除现代计算机系统的一个经常令人感到迷惑的方面。 

异常 (exception； 就是控制流中的突变，用来响应处理器状态中的某些变化。图8,1展示 T 基 
本的思想。 




异常处理程序 


畀常 


事件在这里发 生一… .♦ iwr 


兄常 




处理 


异笮返 R 

(可选的> 


图 异常的剖析 

处理器状态中的一个变化 c 事件} 触发了从应用程 序到一 个异常处理枵序的突发的柠制转移 （ -个异常： frit 常处理秤宇完 
成处理后，它将控制返问给被中断的程序或者终止。 


在此图中，3处理器状态中一个重要的变化发生时，处理器正在执行某个当前指令在处 
理器中，状态被编码为不同的位和佶七状态变化被称为事件 (event) ,事件可能和治前指令的执 
行1接相关6比如，发生虚拟存储器缺页、算术溢出，或者一条指令试图除以零。另一方面，事件 
可能和当前指令的执行没有关系，比如，一个系统定时器产生信号或者-•个 U0 请求完成。 

在任何情况中 f 当处理器检测到有事件发生时，它就会通过一张叫做异常表 (e^tiontable) 
的跳转表，进行一个间接过程调用（异常），到一个专门设计用来处理这类事件的操作系统子程序 

-异常处理程序 （exceptionhandler \ 

当异常处理程序完成处理后，根据引起异常的事件的类型，会发生以下二种情况中的 -种： 

1- 处理程序将控制返回给3前指令 fcuir (当事件发生时正在执行的指令)， 

2. 处理程序将控制返回给 Inext (如果没有发生异常将会执行的下一条指令)， 

3. 处理程序终止被中断的程序。 

8.1.2 节将讲述关于这些可能性的更多内容。 

旁注： 嫌件与 ft 件昇常 

C++ 和 Java 的程序员会注意到术谱《异常”也用来描迷由 C++ 和 Java 以 


* throw 和 tty 
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句的形式提供的应用级 ECF . 如果我们想完全弄清楚，我们必须区别 * 硬件"和 ，件， _异常，但 
是这通常是不必要的，因为从上下文中就能够很清楚也知道是哪种含义， 


8.1.1 异常处理 

异常吋能会4以埋解，因为处埋异常耑要硬忭和软件紧密合作。很桴易搞浞哪个部分执行哪个 
任务， 比我 们更洋细地來肴看硬 n 和软件的分工吧。 

系统屮叮能的每科类型的分常都分配了一个惟■的非负幣数的 异常号 (exception number ), 这 
些号码中的某•些足由处理器的设计荇分配的，其他号码是山操作系统内核（操作系 统常驻 存储器 
的部分）的设计茗分配的。前者的承例包括掖零除、缺页、存储器访 W 违例、断点以及算术溢出。 
后哲的小例包拈系统调用和来 G 外部1/0设备的倍訏。 

在系统启动时（当计算机 S 启或 昔加电 时），操作系统分配和初始化一张称为异常表的跳转表, 
使得表 h k 包含异常 k 的处理程序的地址:■阁 s .2 展小 r -张异常表的格式。 


异常处理程序0的代码 


昇常处 理枵序 1的代 R 


昇常处理程序2的代 ft 


异常处理程字 H 的代码 


图 8.2 异常表 

奸常发是 -張跳 H 表，其屮土 H k 包合异常 k 的处坪忤序代 w 的地址 n 


/ I :运行时（'与系统在执 rr 某个柠字时)，处埋器检测到发生了 -个事件，并且确定 r 相应的异常 
号 k 。 随^,处理器触发异常 ， a 怯是执行间接过程调用，通过异常表的表 [] k , 转到相应的处理程 
序。图 s .3 展小 _ r 处理器如何使用异常表来形成适当的异常处理程序的地址。异常巧是到异常表屮 
的索异常表的起始地址放江一个叫做异常表基寄存器 (exception table base register ) 的特殊 CPU 

寄存器 HL 


异常类似 r 过秤调用，但是冇一些4要的不问之处： 

* H 稃调用 时，弁:跳转到处理程序之前，处理器将返 [■彳 地址压到栈中。然而，根据异常的类型, 
返冋地址要么是'与前指令 （二事 n 发生时 ify [:执行的指令)，要么是下一条指令（如汜事外 
+发生，将会在气前指令后执彳丁的指令）。 

• 处理器也祀 -些 额外的处理器状仓) i 到栈里 T 在处 a 秤序返冋时，重新开始被屮断的枵序会 

耑要这些 状态。 比如，汁 IA 32 系统将包含3前条件码的 EFLAGS 寄存器和其他一些东西 
压入栈中。 



异常控制流 


505 


如果控制从…个用户程序转移到内核，所有这些项 H (item) 都被压到内核栈中，而不是压 
到用户栈中 & 

异常处理程序运行在内核模式 K (8.2,3 !?), 这意味着它们对所有的系统资源都有完全的 i 方 
问权限 D 


一旦硬件触发了异常 t 剩>的丄作就是由异常处理程序在软件中完成，在处理程序处理/事件 
之后，它通过执行 - 条特殊的“从中断 返回” 指令，可选地返回到被中断的程序，该指令将适当的 
状态弹回到处理器的控制和数据寄存器中，将状态恢复为用户樸式 （8.2.3 节)。如果异常中断的是 
一 个用户程序，然后将控制返冋给被中断的稈序。 

异常号 


异常表 


㈣ 


2 


昇 ffi#k 的表3的地 SL 


异常左基奇 fr 器 




8.3 生成异常处理程序的地址 


祥常号是到异常表中的索 


8.1.2 异常的类别 

异常可以分为叫类 r 尹断 (interrupt ). 陷阱 （ trap)、 故障 （fault ) 和终止 ( abort ) ^图 8.4 中的 
表对这些类别的属性做了小结。 


类别 


用因 


异步/冃步 


_ 返回行为 

&是返 iBl 到下一条指令 


中断 


來 f ! 1/0设备的信马 

有意的异常 
f 在可恢复的错说 

恢复的错误 


m 


HP 


总是返问到下一条指令 
可能返冋到当前指令 
个会返冋 


m 


同步 


8.4 异常的类别 

异步异常 Sftl 处理器外部的 I / O 设备中的摩件产生的。同步畀常是执行-条指令的 B 接产物。 


m 


中断 


中断是异步发生的，是来自处理器外部的1/◦设备的信号的钴架 D 硬件中断不是由任何一条专 
门的指令造成的，从这个意义上来说它是异步的。硬件中断的异常处理程序常常被称为中断处理程 

序 (interrupthandler)o 

图 8 . 5 概述了 - 个中断的处理。 I/O 设备，例如网络适配器、磁盘控制器和定时器芯片，通过向 

处理器 芯片上 的一个管脚发信号，并将异常号放到系统总线上，来触发中断，这个异常号标识了引 
起中断的设备。 

在当前指令完成执行之前，处理器注意到中断管脚的电压变高了，就从系统总线读取异常号， 
然后调用适当的中断处理程序。当处理程序返回时，它就将控制返回给下一条指令（也就是，如果 
没有发生中断，在控制流中会在当前指令之后的那条指令 ) fl 结果是程序继续执行，就好像没有发生 
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过中断一样。 

剩卜_的异常类型（陷阱、故障和终山）是同步发生的，是执行当前指令的结果。我们把这类指 

令叫做故障指令 (faulting instruction) c 


(2) A 3前指令完成 
柠制传递给处珲柠序 


( I ) 在当前 指令的 
执打过枵中，中断 
賁脚变高了 


icm 


(3) +断处 
理秤序运行 




(4) 处理程序返 
冋到下-•条指令 


8,5中断处理 


屮断处理程序将控制返 M 给应甲枵序拎制流中的下•条指 


阱 


陷阱是有意的异常，足执行一条指令的结果。就像屮断处理枵序一样，陷阱处理秤序将控制返 
M 到 K •条指令。陷阱最重要的途是在用户枵序和内核之间提供•个像过程•样的接口，叫做系 

统调用。 


用户枵 序经常需要向内核请求服务，比如读一个文件 （mad)、 创建一个新的进程 （fork)、 加载 
-个新的程序 （execve)， 或者终 U 前进程 ( exit). 为了允许对这些内核服务的受控的访问，处理 
器提供/一条特殊的 “syscall iT 指令，与用户程序想要请求服务 n 时，可以执行这条指令。执行 
syscall 指令会导致个到异常处理程序的陷阱，这个处理枵序对参数解码，并调用适 S 的内核程序。 
图 8.6 概述了 •个系统调用的处理。 


(2) 控制 ft 递 
给处砰秤序 


U ) 应用程 ff 执行 
-次系统调用 


aysoall 

inext 


(3) 陷阱处押 
秤 序运汀 


处理程序返回到 
syscall 之后的指令 


8.6 陷阱处理 




陷阱处珲荇序将拧制返冋给 A 用程字控制流今的下 -条搰 令。 


从… •个程 序员的角度来看，系统调用和??通的戚数调用是…样的。然而，它们的实现是非常不 
同的。仰通的函数 k 行在用户模式 （usermode) 中，用户模式限制/函数吋以执行的指令的类型， 
而且它们只能访问与调用函数相同的栈。系统调用运行在内核糢式 （kemd mode) 中，内核模式允 
许系统调用执行指令，并访问定义在内核中的栈。 S,13 W 会更详细地讨论用户模式和内核模式。 
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故障 


故障由错误情况引起，它可能被故障处理程序修正。当一个故障发生时，处理器将控制转移给 
故障处理程序如果处理程序能够修正这个错误情况，它就将控制返回到故障指令，从而重新执行 
它。否则，处理程序返 W 到内核中的 abort M 程， abort 例枵会终[ I ：引起故障的应用程序，图 8.7 概 
述了 -个故障的处理。 


(2; 控制传递 

给处理程序 


(1) 3前指令 
导致一个战障 


Icun 


(3) 故陣处埋 
程序运行 

r fcl “■! r ■ J 

(4) 处理程序要么 t 新 
执行指令，1么终 I 卜 


■■■* abort 


图 8.7 故陣处理 

根据故障是否能够被修复，故陣处理程序要么重新执行故陣指令，要么终止, 


故障的一个经典示例是缺页异常，3指令引用一个虚拟地址，而与该地址相对应的物理页面不 
在存储器中，因此必须从磁盘中取出时，就会发生这种故障。就像我们将在第10章中看到的那样, 
一个页面就是虚拟存储器的一个连续的決（典型的是 4 KB )。 缺页处理程序从磁盘加载适当的页面， 
然后将控制返冋给引起故障的指令，当指令再次执打时，相应的物理页面已经驻留在存储器中了， 
指令就可以没有故障地运行完成了， 


终 It 


终止是不可恢复的致命错误造成的结果——典型的是-些硬件错误，比如 DRAM 成者 SRAM 

位被损坏时发生的奇偶错误。终止处理程序从不将控制返回给应用程序。如图 8. S 所示，处理稈序 
将控制 返回给■■个 abort 例程，该例程会终止这个应用程序 。 


(2) 传递控制 
给处現程序 


(1) 发生致命 
的硬件错误 


icurr 


(3) 终止处理 
秤序运行 


一 > abort 


(4) 处理程序返 [ H ] 
到 abcrt 例程 


8.8 终止处理 

终汝 处现® 序将控制传递给■个内核 abort 例 S . 该例程会终止这个化用程序。 

8.1.3 Intel 处理器中的异常 

为了使描述更具让我们来看看为 Intel 系统定义的一些异常。一个 Pentium ^ 可以有髙达 
256种不同的异常类型。范围0〜31的号码对应的是 Pentium 饵系结构定义的异常，因此对任何 
Pentiimi 类的系统都是一样的。范围32〜255的号码对应的是操怍系统定义的中断和陷阱。图84展 






■ 
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条接…条地执行我们程序中的指令，最后，我们程序中的代码和数据显得好像是系统存储器中惟一 
的对象4这些假象都是通过进程的概念提供给我们的^ 

进程的经典定义就是一个执行 中程序的实例 9系统中的每个程序都 是运行 在某个进稈的 上下文 
(content ) 中的 上卜文 是由程序正确运行所需的状态组成的。这个状态包括存放在存储器中的程 
序的代码和数据、它的栈、它的通用目的寄存器的内容、它的程序计数器、环境变量以及打开文件 
描述符的集合。 

每次用户通过向 shell 输 入一个可执行 0 标文件的名字，运行一&程序 时， shdl 会创建一个新 
的进程，然后在这个新进程的上下文中运行这个执行 D 标文件，应用程序还能够创建新进程，且 
在这个新进程的上下文中运行它们自 d 的代码或其他应用程序。 

关于操作系统如何实现进程的细节的讨论超出了我们的范围。取而代之，我们将关注进程提供 
给应用程序的关键 抽象： 

• 一个独立的 逻辑控 制流，它提供一个假象，使我们觉得我们的程序独占地使用处理器 * 

* 一个私有的地址空间，它提供-个假象，使我们觉得我们的程序独占地使用存储器系统。 

让我们更深入地看看这些抽象。 


8.2,1 逻辑控制流 

典型地，即使在系统中有许多其他程序在运行，进程也可以向每个程序提供一种假象，好像它 
在独占地使用处理器。如果我们想用调试器单步执行我们的程序，我们会看到一系列的 PC (程序计 
数器）的值，这些值惟-地对应 f - 包含在我们程序的可执行目标文件中的指令或是包含在运行时动 
态链接到我们程序的共亨对象中的指令。这个 PC 值的序列叫做 逻辑控 制流。 

考虑一个运行着三个进程的系统，如图 8.10 所示。处理器的一个物理控制流被分成了夕个逻辑 
流，每个进程一个。每…个竖直方向上的列表示一个进程的逻辑流的■部分在这个例 r 中，进程 
A 运行了一会儿，然后是 B 开始运行到完成。然后， C 运行了一会儿， A 接着运行良到完成，最后， 

C 口I以运行到结束了。 


进枵 b 进程 c 


进拜> 


时间 


图 &10 逻辑控制流 

进朽为每个程序鬼供了。种假象，好像程序在独占地使闬处理器每一竖直方向上的列在示个进秆的逻辑控制流的一部分, 

B 8.10 的关键点在于进程是轮流使用处理器的。每个进程执行它的流的一部分，然后被抢占 
(preempted) (暂时挂起)，与此同时其他进程开始 执行。 对于一个运行在这些进程之__的上下文中的 

稈序，它看上去就像是在独占地使用处理器，惟一的反面例证是如果我们精确地测量每条指令使用的 
时间（参见第9章)，我们将发现在我们程 序中- 些指令的执行之间， CPU 好像会周期性地停顿 (stall)。 
然而，每次处理器停顿，它随后继续执行我们的程序，并不改变程序存储器位置或寄存器的内容 a 

一般而言，和不同进程相关的逻辑流井不影响任何其他进枵的状态，从这个意义上说，每个逻 
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8.2.3 用户楼式和内核模式 

为了使操作系统内核提供一个无懈可击的进稈抽象，处理器必须提供一种机制，限制一个应用 
吋以执行的指令以及它可以访问的地址空间范围 D 

典型地，处理器是用某个控制寄存器中的一个 方式位 （mode bit ) 来提供这神功能的，该寄存 
器描述了进裎当前享有的权力。当方式位设置 T 时，进程就运行 在内核模式中 （有时叫做超 级用户 
模式 X —个运行在内核模式的进程可以执行指令集中的任何指令，并吐可以访问系统中任何存储器 


位置. 


方式位没有设置时，进程就运行在用户模式中。用户模式中的进程不允仵执行特权指令 

(privileged instruction ), 比如停止处理器、改变方式位的值或者发起一个 I/O 操作，也不允许用户 
模式中的进程直接引用地址空间中内核区内的代码和数据。任何这样的尝试都会导致致命的保护故 
障。用户程序必须通过系统调用接 U 阆接地访问内核代码和数据， 

一 个运行应用程序代码的进程初始时是在用户模式中的.进程从用户模式变为内核模式的惟一 
方法是通过诸如中断、故障或者陷入系统调用 （trappingsysleni call) 这样的异常。当异常发生时， 

控制传递到异常处理程序，处理器将模式从用户模式变为内核模式，处理程序运行在内核模式中， 
3它返回到应用代码时，处理器就把模式从内核模式改回到用户模式& 

Limix 和 Solaris 提供了一种聪明的机制，叫做 /proc 文件系统，它允许用户模式进程访问内核数 
据结构的内容。 /proc 文件系统将许多内核数据结构的内容输出为一种用户程序可以读的 ASCII 文件 
的层次结构 D 比如，你可以使用 Liimx /piDc 文件系统找出一般的系统属性，比如 CPU 类型 
C/proc/cpuinfo) T 或者某个进程使用的存储器段 (/proc/<processid>/map&) 0 


8.2.4 上下文切换 

操怍系统内核利用〜种称 为上下文切换 (context switch) 的较高级形式的异常控制流来实现多 
任务。上下文切换机制是建立在我们在 U 节中己经讨论过的那些较低层异常机制之1:的. 

内核 为每个 进程维持一个 上下文 （comext)。 上 F 文就是内核重新启动一个被抢占进程所需的状 
态 6 它由一些对象的值组成，这些对象包括通用目的寄存器、浮点寄存器、程序计数器、用户栈、 
状态寄存器、内核栈和各种内陔数据结构，比如描绘地址空间 的页表 (page table)、 包含有关当前 
进程信息的 进程表 （process table), 以及包含进程已打开文件的信息的 文件表 ( file table). 

在进程执行的某些时刻，内核可以决定抢占当前进程，并重新开始一个先前被抢占的进程。这 
种决定就叫 做调度 （scheduling), 是由内核中称为 调度器 （scheduler) 的代码处理的。当内核选择 
-个新的进程运行时，我们就说内核 调度了 这个进程^在内核调度了一个新的进稈运行后，它就抢 
占当前进程，并使用一种称为上下文切换的机制来将控制转移到新的进程， 上下文切换可以 ：①保 
存当前进程的上下文；②恢复某个先前被抢占进程所保存的1:下文；③将控制传递给这个新恢复的 


进程, 


当内核代表用户执行系统调用时，可以发生 hF 文切换。如果系统调用因为等待某个事件发生 

那么内核可以让当前进程休眠，切换到另一个进程，比如，如果一个 read 系统调用请求…- 
个磁盘访问，内核可以选择执行上 F 文切换，运行另外-个进稈，而不是等待数据从磁盘到达。另 
一个示例是 sleep 系统调用，它显式地请求让调用进程休眠。一般而言，即使系统调用没有阻塞， 
内核也可以决定执行上下文切换，而不是将控制返回给调用进程。 


5/2 


中断也可能引发上下文切换。比如，所有的系统都有某种产生周期性定时器中断的机制，典型 
的为每 1 毫秒或每 10 毫秒 6 每次发生定时器中 断时， 内核就能判定3前进程已经运行/足够长的时 
f 口 J 了，汴切换到•个新的进程。 

图8,12展示了一克进稈 A 和 B 之间上下文切换的 示例。 在这个例子中，初始地，进程 A 运 
行在用户模式中，直到它通过执行 read 系统调用陷入到内核。内核中的陷阱处理程序请求来自磁 
盘控制器的 DMA 传输，并在碰盘控制器完成从磁盘到存储器的数据传输后，要求磁盘中断处理 


器。 


进稃 B 


进程 A 


时间 


用户模式 

内核模 A } 卜.卜文切换 
用户模式 

内核模式1卜. K 文切换 
用户模式 


read 


磁盘屮断 


从 read 返网 


■ rI r__i ■ 


图 8.12 进程上下文切換的剖析 

磁盘取数据要用-■段相对较长的时间（数量级为彳，几毫秒)，所以内核执行从进稈 A 到进秤 B 
的上卜文 t/j 换，而小是4:这个间歇时间内等待，什么都不做。注意在切换之前，内核 IK 代表进程 A 
在用/_模式卜执行指令。在切换的第一步中，内核代表进稈 A 在内核模式下执行指令。然后在某一 
时刻，它开始代表进稃 B (仍然是内核模式 M 执行指令。在切换完成之后，内核代表进程 B A 用 
户模式卜执行 指令。 

随后，进程 B 在用户模式 F 运行一会儿，直到磁盘发出-个中断佶号，衷示数据己经从磁盘传 
送到了存储器 . 内核判定进稈 B 已经运行了足够长的时间了，就执行一个从进程 B 到进程 A 的上 
下文切换，将控制返回给进程 A 中紧随在 read 系统调用之后的那条指令。进程 A 继续运行， ft 到 
下一次丼常发生，依此类推。 

旁注： 高速缓 存污染 （ polkrtion ) 和异常 控制流 

—般而言，硬忤高速缓存存储器不能和谈如中断和上下文切换这样的异常控制洗很妤地交互， 

如果当前进租被一个 K 中断，暂时中断，那么对于中断处理程序来说高速缓存是冷的 < ooW )\ 如 

果处理程序从主存中访问了足够多的表那么-被中断的进程继续时，高速缓存对它来说也是冷 

的了，在这种情况中，我们就说（中断）处理程序污染 （ poUufc ) 了高速缓存.使用上下文切换也 

会发生类似的 現象. 当一个进程在上下文切挟后继续执行时.高速缓存对于应用程序而言也是冷的， 
必须再次 热身， 


I "高速缓存 fi 冷的”意思是程序所芾要的教据都V在岛速缓存中 a ——译者 
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8.3 系统调用和错误处理 


Unix 系统提供了人暈的系统调用，当应用程序想向内核请求服务时，比如读取一+文件，或者 
创建一个新的进埕，都可以使用这些系统调用 D 例如， Linux 提供了大约160个系统调用。输入 
syscalls^, 你将得到完整的列表。 

C 程序通过使用 “man 2 intro -里描述宏，可以直接调用任何“系统调用' 然而， 
通常直接调用“系统调用”既不必要又不值得。标准 C 库提供了一组针对最常用系统调用的方便的 
包装 (wrapperJ 哟数。包装函数将参数打好包，通过适当的系统调用陷入内核，然后将系统调用的 
返回状态传递给调用裎序 3 在我们下面章节的讨论中，我们把系统调用和它们相关的包装函数可互 

换地称为系统级函数。 

诌 Unix 系统级函数遇到错误时，它们典型地会返回 M， 并设置全局整数变量 ermo 来表示什么 
出错『。程序员应该总是检査这些错误，但是不幸的是，许多人都忽咯了错误检查，因为它使代码 
变得臃肿，而且难以读懂，比如， F 面是我们调用 Unix forit 函数时如何检查错误的： 




1 if ((pid = fork()) 

2 fprinzf (stcierr 

3 exit(0 )； 


0 ) { 

fork error: %s\n L ，T , strerror (errno)); 


T1 


J 


strerror 函数返回一个文本串，描述了和某 ▲ ernio 值相关联的错误。通过定义下面的错谟报告 
函数 (error-reportingfunction), 我们能够在某种程度上简化这个代码： 


1 void unix 


errorfchar *msg) / + unix-style error V 


fprintf (sLderr, n %s : %s\n 11 , msg, strerror {errno)) 

exit(0); 


4 


给定这个函数，我们对 fork 的调用从 4 行简化到了 2 行『 


if ( tpid = fork(；) < 0) 

unix_error( 1 fork 


error 


通过使用错误处理包装 （_-handling wrapper) 函数，我们可以更进一步地简化我们的代码。对于 
一輔定的基本函数 foo, 我们定 义-个 具有相同参数的包装函数 Foo, 但是第一个字母大写了，包装 
函数调用基本凼数来检查错误，如果有任何问题就终止。比如，下面是 fork 函数的错误处理包装函数: 


1 pidLt Fork(void) 


p 丄 d_t pid ； 


5 


if ( (pid forkO) < 0) 

unix_error ( n Fouk error ”； 
return pid ； 


给定这个包装函数 a 我们对 fork 的调用就缩减为 1 行 


514 


1 pid - forM); 


我们将在本书剩余的部分屮都使用错误处理包装函数。它们允许我们保持小例代码的简洁，而 
义不会给你错误的假象，认为允许忽略错误 检査， 注意，当我们在本彳5中谈到系统级阐数时 t 我们 
总是用它们的小写字母朿表示，而不是它们人写的包装函数名来表示。 

关于 Unk 错误处理以及本书中使用的错误处理包装函数的讨论 t 请参考附录 EL 包装阐数定义 
在一个叫做 csapp + c 的支件中，它们的原型定义在-■个叫做 csapp . h 的头文件中 D 为了便于你引用， 
附录 B 提供了这些文件的源代码。 


8.4 进程控制 


Unk 提供了大1从 C 程序中操作进程的系统调用。这-节将描述这些重要的函数，并举例说明 

如何使用它们。 

8.4.1 获取进程 ID 

每个进稃都有一个惟一的£数< I 零）进程 ID ( P 1 D ). getpid 闲数返 M 调用进程的 PID . getppid 
的数返回 C 的父进程的 PID (也就是，创建调用进程的进裎)。 


tti rtclude <uniytd i h> 

•include <^ys/types.h> 


pid_t yetpidivoidj ； 

pid—t geLppia(void) - 


返回： 调月者或其父进程的 PID 。 

getpid 和 getppid 函数返 N ，个类型.为 pid 」 的整数值，在 Linux 系统上的 types . h 巾它被定义为 itit , 

8.4.2 创建和终止进程 

从稃序员的角度，我们可以认为进程总是处 f 卜面二 种状态之一： 

• 运行，进程要么在 CPU 上执行，要么4等待被执行且最终会被调度。 

* 暂停□进程的执彳丁被桂起 （ suspended )， 且不会被调度。3收到 SIGSTOP , S 1 GTSTP . SIDTTIN 
或哲 SIGTTOU 倍号时 f 进程就皙停，并且保持暂停汽到它收到-个 SIGCONT 信号，在这 
个时刻，进程再次开始运行。（佶弓是-种软件中断的形式，将在 8.5 节中给予推述。） 

• 终止，逬程永远地停止了。进程会因为二种原因终 ih : 收到个信号，该信号的馱认行为是 
终止进 程； 从主稈序 返回； 调用 exit 函数。 


# include tdlib + h> 


void exit{int status); 


_ 该函數无返回值。 

-- - - - - - --------1- ■— - H 

以1 晌数以 Status 退出状态来终止进程 （ W 种设 置退出状态的方法是 从主稈 序中返 In ] -个粮 


数值）。 


父进程通过调用 fork 函数创建 一 个新的返行子进程 
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# include <unistd.h> 
ft include <sys/types 


pid_t forkIvoid); 


返回： 于进程返回 o , 父进程返西子进程的 pro , 若出错则为 -1 


新创建 的了进 稈几乎但不完全与父进程相同。子进程得到与父进程用户级虚拟地址空间相同的 
(但是独立的）-份拷贝，包括文本、数据和 bss 段、堆以及用 户桟。 子进程还获得与父进程任何打 
开文件描述符相 R 的拷贝，这就意味着3父进程调用 fork 时，子进程可以读写父进程中打开的任何 
文件。父进程和新创建的+进程之间最大的区别在于它们有不同的 PID 。 

fork 函数是有趣的（也常常令人 迷惑: U 因为它只被调用一次，却会返回 两次： 一 次是在调用进 
程（父进程）中，一次是在新创建的子进程中。在父进程中， fork 返回+进程的 PID , 在子进程中, 
fork 返回零。因为了进程的 PID 总是非零的，返回值就提供一个_确的方法来分辨程序是在父进程 
还是在子进程中执行的。 

8 J 3 展示了一个使用 fork 创建子进程的父进程的示例，当 fork 调用在第8行返回时，在父 
进程和了进程中 x 都有值 h 子进程在第10行增加并输出它的 x 的拷贝。相似地，父进程在第15 
行减少和输出它的 x 的拷贝。 


code/ecfJforkc 


=tinclude h csapp.h 


3 


int main (} 


4 


pid_t pidj 
int x 


pid = Fork ()； 

if (pid == 0] { /* child */ 

printf("child : x=%d\n 
exit(0 )； 


10 


++x); 


_ 


i 


11 


12 


13 


/* parent */ 

printf i Ir parent : x=%d'n 

exit {0 }； 


14 


15 


x) 




16 


17 


code/ecf/forL c 


8.13 使用 fork 创建一个新进程 
当我们在 Unk 系统上运行这个枵序时，我们得到下面的 结果: 






/fork 

parent : x =0 
child : x-2 


umx> 
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这个简单的例+有一些微妙的 方面： 

* 调用一次，返回两次。 fork 函数被父进程调用次，但是却返回两次—— 一 次是返 M 到父进 

程， 一 次是返回到新创建的子进程^ 对丁只 创 建-个 f 进程的稃序来说，这还是相3简单 
的。佢是含有多个 fork 实例的程序可能就会令人迷惑，需要仔细地推敲/ & 

• 并发执行。父进程和子进程是并发运行的独立进程。内核能够以仟意方式交替执行它们逻辑 
控制流中的指令。3我们在系统上运行这个程序时，父进程先完成它的 printfiS 句，然后是 
了进程 a 然而，在 M 个 系统上 nj 能正好相反。一般而言，作为秤序员，我们无法对不同 
进程中的指令交替执行做任何假设。 

• 相同的但是独立的地址空间，如果我们能够在 fork 函数在父进稈 和了进 稈中返凹后立即终 
止这两个进程，我们会看到每个进程的地址空间都是相同的。每个进枵有相 同的用 户栈、 
相同的本地变 t 值、相同的堆、相同的全周变量值，以及相冋的代码。因此，扎我们的不 
例程序中，当 fork 函数在第8行返冋时，本地变量 x 在父进程和了进枵中都为1。然而，因 
为父进程和+进程是独立的进秤，它们每个都有自己的私有地址空间。 后面 ，父进程和子 
进程对 x 所做妁仟何改变都是独立的，不会反映在另一个进程的存储器中。这就是为什么 
当父进程和子进程调用它们各 ft 的 printf 函数吋，它们中的变量 X 会冇不同的值。 

• 共享文件1当我们运行小例稈序吋，我们注意到父进程和 f 进稈都把它们的输出显示在屏幕 
上。原因是子进程继承了父进程所有的打幵文件。当父进程调用 fork 时， stdom 文件是被打 
卄的，汴指向 F 幕。 f 进程继承丫这个文件，因此它的输出也是指向屏幕的。 

如果你是第- 次学习 fork 函数，画进程图通常会有所帮助，其中每个水平的箭头 对应〗从左到 
右执行指令的进稈，时每个垂 t 的箭头对应于 fork 函数的执行。 

例如，图 S .14 ( a ) 中的程序将产 (1: 多少输出行呢？阁 8.14 ( b ) 给出了相应的进枵图。3父进 

程执行程序中第-个(也是惟 一- 个) fork 函数时，它会创建一个子进程。每个进程都调用-次 printf , 
所以程序打印两个输出行。 

现在如采我们如图 S .14 ( x ) 所示的那样调用 fork 两次，会怎样呢？就像我们在图 8.14 ( d ) 巾 

看到的那样，父进裎调用 fork 创建个 『进程，然后父进程和子进程都调用 fork , 这就导致了构个 
更多的进桿。闶此，就有 r 4个进程，每个都调用 printf ， 所以程序就产生/ 4个输出行= 

继续沿这个思路想 F 去，如果我们要调用 fork 二次，如图 S +14 ( e ) 所小- f 又会发生什么呢？ 

就像我们从图8.】4 ( f ) 中的进程图中看到的那样，-共会有8个进程。每个进程调用 pri ^ uf ， 所以 
程序就产生了 8 个输出行。 


1 # include "c^app.h 


2 i nt m&in{) 


fork {); 

printf ( ,r hGllo ! \n M ) 
exit[D )； 


hello 


hello 


fork 

( b ) 打印向个输出行 


(a) 调 1 fj fork ■次 
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1 #include "cs 叩 p.h 


3 int Kiair, {) 


hello 


5 


Fork !)； 

Fork ()； 

print f ("hello! Vn 1 '}; 
exit(0 )； 


6 


7 


fork fork 


(c) 頃 fflfork 两次 


(d) 打印 E 个输出行 


hello 


1 #include，■ csapp ■ li 


hello 


IleUc 


3 int mainf) 


h*llo 


Fork ()； 

Fork [)； 

Fork ()； 

printf <"hello!\n") ; 
exit(0 )； 




hello 


'O 


hallo 


hello 


hall* 


fork f«h fork 


10 } 

■: e ) 调用 fort 了次 


(f) 打印八个输出 tr 


8.14 forte 示例程序 




练习题 8.1 

考虑下面的 程序: 


code/ecf/forkp robO. c 


#include M csapp,h 


int main() 


3 


4 


mt x 


if (Fork ㈠ 

printf{"printfli x=%d\n 
printf("printf2: x=%d\n", 
exit(0); 


7 


Cl 


++x) 




10 


11 


code/ecf^fo rkprobO. c 


A . 子 进程的输出是什么? 

B . 父进程的输出是什么? 
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练习阪 8.2 

下面的程序会打印多少个 “ hello " 输出行? 


cod^/ecf/forkprobLc 


# include "csapp.h 


int main() 


3 


4 


5 


int i ； 


6 


for (i - 0; i < 2; i 

Fork()? 

printf ("helloiNn 11 )； 

exit(0 )； 


8 


10 


n 


code/ecf/forkprob 1, c 


炼习匦 8.3 

下面的程序会打印多少个 K hello w 愉出行? 


code/ec0orkp rob4, c 


# include 11 csapp + h 


void doiL{1 


4 


Fork {)； 

Fork (); 

print,f ( 11 helloXn 11 ) 

return ； 


6 


10 


■ 


mt mam (} 


1 9 

j I 


J3 


doit (); 

print-E ； ,f hello\ri") ; 

exit (0!; 


14 


15 


lo 


code/ecf/forkprob4. c 


8.43 回收子进程 

个进程 tti 于某种原因终止时，内核并不是立即把它从系统中清除 □ 取 iftj 代之的是，进程被 
保持在 种 终] h 状态中，岜到被它的父进程回收 ( reaped ). 与父进程问收己终 lj : 的子进程时，内核 
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将 f 进程的退出状态传递给父进程，然后抛弃已终止的进程，从此时开始 f 该进程就不存在了 。一 
个终止了但还未被回收的进程称为僅 死进钱 ( zombie ). 

旁注：为什么已终止的子进程称为懦死进程？ 

在民间传说中，僅尸是活着的尸体，一种半生半死的实体、僅死进租已经终止了，而内核仍保 
留着它的莱些状态直到父进释田收它为止，从这个意义上说它们是类似的， 

如果父进程没有回收它的值死子进程就终止了，那么内核就会安排 init 进程来回收它们 t init 
进程的 PID 为1，并且是在系统初始化时由内核创建的。长时间运行的程序，比如 shell 或者服务 
器，总是应该回收它们的僵死丁进程。即使偃死子进程没有运行，它们仍然消耗系统的存储器资 


源 


个进程可以通过调用 waitpid 函数来等待它的子进程终止或者 暂停; 


■ 


#include <sys/types*h> 
#include <sys/wait.h> 


pid_t waitpid(pid_t pid, int *status, int options> 


述茴：如果成功，则为子进程的 PID, 如果 WNOHANG, 则为 0, 如果出错则为 -1 。 


waitpid 函数有点复杂。默认地 （3 optkms=0 时)， waitpid 挂起调用进程的执行 t 直到它的等 

待集合中的一 个了进 程终止，如果等待集合中的一个进程在刚调用的时刻就已经终止了，那么 
waitpid 就立即返冋，在这两种倩况中， waitpid 返回导致 waitpid 返回的终止 T 进程的 PID, 并 F1 将 

这 个已终 lh 的 T 进程从系统中去除。 

判定等待集合的成员 

等待集合的成员是由参数 pid 來确 定的： 

• 如果 pid>0, 那么等待集合就是一个笮独的了■进程，它的进程 ID 等于 pid。 

• 如果 pid=-l f 那么等待集合就是由父进程所有的子进程组成的。 

旁注： 存进程集合上的等待 

waitpid 函数还支持其他类型的等待集合，包括 Unix 进程組，对此我们将不做计论. 

嫌改默认行为 

可以通过用常鼋 WNOHANG 和 WUNTRACED 的不同组合来设 1 options, 修改默认行为： 

* WNOHANG： 如果没有等待集合中的任何子进枵终 |L + 那么就立即返回（返回值为 0) D 

* WUNTRACED ：挂起调用进程的执行，直到等待集合中的一个进程变成终止的或者被哲停。 
返回的 P1D 为导致返回的终 ll ： 或暂停 T 进程的 PID. 

• WNOHANG I WUNTRACED: 立即返回，如果没有等待集合中的任何子进程停止 或终止 ，那 
么返问值为0,或者返回值等于那个被停止或者终 ihf 进程的 PDX 

检杏己网收子进程的退出状态 

如果 status 参数是非空的，那么 waitpid 就会编码关于导致返阿的 子进程 的状态信息到 status 参 
数。 wait.h 包含文件定义了解释 status 参数的几 个宏： 

• WIFEXITED(stalus) : 如果子进程汜常终止就返回真，也就是通过调用 exit 或者一个返回 
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(return )□ 

WEXITSTATUS ( stams )： 返回一个 IH 常终 ll : 的 f 进程的退出状态。只有在 W 1 FEXITED 返冋 
为真时，才会定义这个状态。 

WIFSIGN A LED ( status )： 如果是因为一个未被捕获的佶号造成了 f 进程的终止，那么就返回 
真 C 将在 8.5 竹 中解释 说明信号)。 

WTERMS 1 G (咖 us ): 返冋引起 f 进程终止的信号的数量。只有在 WIFSIGNALED ( stam S ) 返 

网真时，才定义这个状态。 

WIFSTOPPED ( status )： 如果引起返冋的子进程当前是暂停的，那么就返回真。 
WSTOPSIG ( status ) ： 返回引起了■进枵暂停的信号的数景。只有在 WIFSTOPPED 〔 status ) 返 

回真时，才 A 义这个状态。 

错误条件 

如果调用进枵 没冇子 进程，那么 waitpid 返 M -1， 并 且设置 errno 为 ECHILD 。 如果 waitpid 函 
数被个信兮中断，那么它返回 - h 爿设置 emK > 为 EINTR 。 

旁注： 和 Unix 函数相关的常量 

像 WNOHANG 和 WUNTRACED 这样的常量是由系统头文件定义的，例如. WNOHANG 和 
WUNTRACED 是由 wait.h 头文件 （ 间接）定 义的： 


« 




* 


/* Bits in the third arguirient- t:o ■waitpid 1 * */ 

tdefine WN 0 HM 1 G 

伴 define WUNTRACED 


1 /* Don't block waiting, 

2 /* Report status of stopped children . 


为了使用这些常量，你必须在你的代碍中包含 waith 头文件 


iinclude <sys/wait *h> 


每个 Unix 函数的 man 页列出了无论何时你在代蜗中使用那个*数都要包含的头文件，同时， 
为了检查诸如 ECHILD 和 EINTR 之类的返回代码，你必须包含 emoX 为了简化我们的代碍示例， 
我们包含了一个称为 csapp：h 的头文件.它包括了本书中使用的所有函数的头文件，附录 B 中列出 
了 csapp.h 头文件， 


示例 


图 8.15 展小了 •个创建 N 个了-进程的程序，使用 waitpid 等待它们终1卜_，然后查肴每个终 it : 广 
进程的退出状态。 

当我们在 Unix 系统上运行这个程序时，它会产生如小 输出： 


/w^itpidl 

chi Id 22 966 lerminaied normally with exit stains 

child. 22 967 Leiminated normally with exit atatL.y 


unix 


100 




：0： 


code/ecf/waitpid l x 


和 include M csapp.h 
Mefine M 2 


int main() 
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5 


int i - 

pid_t pid; 


for (i = 0; i < N; i++) 

if ((pid = Fork()) 

exit [ 100 + i )； 


1C 


0) /* child V 




11 


12 


卜 parent waits for all of its children to terminate ~ 

while ' (pid = v/aitpid(-1 ^ ^status r 0)) 

if (WIFEX1TED(Status)) 

printf ("child %d terminated normally with exit stat js=%d\n 

pid r WEXITSTATUS (status) ) ? 


13 


14 


0 ) { 


> 


15 


16 


17 


18 


else 


19 


printf ( ir child %d terminated abnormal.ly 


pid) 


n 


20 


if (errno ]= ECH1LD) 

unix_error ('"waitpid 


21 


22 


)? 


■r 


error 


23 


24 


exit(01? 


25 


code/ecf/waiipid\.c 


8.15 使用 wdtpid 函数回收僱死子进程 


code/ecf/waitp i d2, c 


#include n csapp,h 

#define N 2 


4 


mt ma i n [) 


6 


int statuSr i; 

pid_L pid[N+lj, retpid 


3 


tor (i 


0; i < i++) 

if : (pid[i] = Fork()} == 0) /* chilci */ 

exit(100+i )； 




10 


11 


12 


13 


/* parent reaps N children in order */ 


3 4 


0 ; 


lb 


whj le ((re 二 pid = waitpid(pid[i++] , ^status f 0 } ) > 0 )( 

if ^WTFEXITEDtstatusO 

printf("child %d terminated normally with exit status=%d\n 

retpid, WEXITSTATUS(status)) : 


16 


17 


18 


19 


else 


20 


printf ( ,p child %d terminated abnormcil ly\n^ f retpid )； 


21 


22 
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23 


/ * The only normal termination 
if (errno 1= ECHILD) 

unix_error ("waitpid error 11 ) 


if there are no more children * / 


is 


24 


25 


26 


exiL{0}; 


28 


code/ecf/wa i tp id2. c 


8.16 使用 waitpid 按照僅死子进程创建的顺序回收它们 

注意，程序小会按照某种特殊的顺序回汷子进枵。图 8.16 展小了我们可以如何用 waitpid 按照 
父进程创建子进程的相同顺序来回收图 8.15 中 的了进 程。 




炼习題8,4 

考虑下面的 程序: 


〜一 code/ecf/waitprohl.c 


ffinclude M csapp*h 


2 


3 


int main{) 


4 


int status 

pid_t pid; 


8 


printf( n Hello\n u )； 
pid = Fork ()； 
print f C'%d\n\ 
if ；pid i= 0) { 

i£ {waitpid (-1 ； £ status, 01 

if (WIFEXITED(Status) U 0} 

printf("%d\n 


Ipid]; 


11 


12 


0 ) { 


> 


]] 


14 


WEXITSTATUS (st^tu^s)); 


1^ 


16 


printf ( 11 Bye\n 11 ); 
exit(2); 


18 


19 


code/ecf/waitprob 1 . c 


A . 这个程序会产生多少输出行？ 

B . 这些输出行的一种可能的顺序是什么 

8.4.4 让进程休眠 

sleep 函数将一个进程挂起 -- 段时间。 


#inc:lude <uniKtd. h> 


unsigned int sleep(unsigned int secs) 


返回： 还要休眠的 秒数。 
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sleep 返囘0 (如果请求的时间量已经到了），或者返回剩 y 的要休眠的秒数。后一种情况是可 
能的，例如3 sleep 函数被一个信号中断过早返网时，我们将在 8.5 许中洋细讨论信号。 

我们发现很有用的另一个函数是 p ^ se 函数，该函数让调用函数休眠，直到该进程收到一个信 


号为止 


include <unistd*h> 


int pause(void) 


总是返回 -1 


练习應 as 

编写一个 sleep 的包装函數，叫做 

unsigned int snooze(unsigned int secs); 

snooze 函数和 sleep 函数的行为完全一样，除了会打印出一条信息来搞迷进程实际休眠了多长 
时间以外 & 


带有下面的接 d : 


snoozej 


Slept for 4 of 5 secs 


8 A 5 加载并运行程序 

execve 函数在当前进程的上 > 文 中加载并运行一个新程序。 


# include <unistd,h> 


int execve(char ^filename, char *argv[], char *envp) 


若成功則不遂回，若错误则速回 -1 


函数加载并运行町执行3标文件 Hlename , R 带参数列表 argv 和环境变置列表 envp。 只 
有当出现错误时，例如不能发现 filename，execve 才会返回到调用程序。所以，不像 fork 会一次调 
用返回两次， 

如图8_]7所小，参数列表是用数据结构表示的。 ai^v 变量指向一个以 mill 结尾的指针数组，其 
中每个指针都指向一个参数串，按照习俗， ar gv [0] 是可执行 S 标文件的名字，环境变董的列表是由 
一个类 似的数据结构表示的，如图 S.18 所示。 envp 变量指向一个以 mill 结尾的指针数组，其中每 
+指针指 向-个 环境变景串，其中每个串都是形如 “NAME=VWAJE” 的名字一值对。 


execve 


调用一次并从不返回。 


execve 


wgvTJ 

argv[0] 

argv[lj 


18 


■It 


argvlargc - 1] 


/user/include 


图参数列表的组织结构 

在 execve 加载了 filename 之后 t 它调用7,9节中描述的启动代码。启动代码准备好栈，并将控 
制传递给新程序的主函数，该主函数有如下形式的 原型： 
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int mdin(int argc, char 


或者等价的 r 


int T^ain (int argc, char *argv t ] ； chdi *envp i ]); 


anvp[] 

envpfi}] 

envp 1] 


PWD-/usi:/dE ： oh N 


envp 


POINTER-iron 


'I 


envp 1 n - 1 } 


- 1 


，■ USER 二 dr oh" 


NULL 


图 8.18 环境变量列表的组织结构 

当 main 开始在-个 Linux 系统上执行时，用户浅冇如图 8.19 所小的组织。让我们从栈底（高 
地址）往栈顶（低地址)，依次看…看。 昌先是 参数和环境字符串，它们都是连续地存放在栈屮的， 
一个接-个，没有分隔。紧随其后，在栈的更上层里，是以 null 结尾的指针数组，其中每个指针都 
指向栈中的 j 个环境变量串。全局变量 
组其后的是以 null 结尾的 argv[] 数组，其中每个元素都指向栈中一个参数串。在栈的1部茫 main 
阐数的3个参数： envp , 它指向 envp[] 数组； argv r 它指句 argv[] 数组； argc , 它给出 argv〖] 中非空 
指针的数暈。 


指向这些指针中的第一个 envp[0]。 紧随坏境变量数 


environ 


栈 K 


Oxbfffffff 


以 null 结尾的环境令 tt 串 


以 nult 铭尾的命令 K 参数中 


未使用 


cwp[n 卜 NULL 
envp[n - 1 ] 


envp[ 0 ] 

argv[argc] ^ NULL 
argvlargc - LJ 




environ 


argv[0] 

动态链接器变童 


en 


argv 


argc 


0 xb £ f £ fa 7 c 


rrain 的栈帧 


:㈣ 


8.19 当一个新的程序开始时，用户栈的典型组织 
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Unix 提供了几个函数来操作环境数组 


ttinclude <stdlib.h> 


char *getenv(const char *name); 


逐若存在则为指向名字的指针，若无匹 配的， 則为 NULL 


getenv 函数在环境数组中搜索字符串 name*value 如果找到了，它就返回一个指向 value 的 
指针 f 否则它就返回空指针 D 


Mnclude <stdlib.h> 


int setenv(const char *name f const char *newvalue, int overwrite); 


返 0: 若成功则为 0, 若错误则为 -i 


void unsetenv (const char *natv.e); 


返回 ：无。 

如果环境数组包含一个形如 name=otdvalue rr 的字符串，那么 imsetenv 会删除它，而 setenv 会 
用 newvalue 代替 oldvalue ,但是只有在 overwirte 非零时才会这样。如果 
就把 H name=newvalue 添加到数组中 

旁注：在 Solaris 系统中设置环境寰 t 

Solaris 提供 pat 成 v A 教，而 不是 


不存在，那么 setenv 


n 


A 教.它并不提供相当于 un 站 feav 函數功能的 A 教 


v 


旁注： 程序与进箱 

这是一个适当的处方，伴下来，确认—下你是否理解了程寿和进祖之间的区别.程序是代码和 
数据的 集合； 钱序可以作为 S 标模块存在于瑾盘上，或者作为段存在于地址空 阅中* 进祖是执行中 
程序的一个特珠实例；程序总走薄行在某个进租的上下 文中， 釦果你想要《解&汝和 ewcve 函数， 
理解这个盖异是很重鮝的. fbrit 函教在折的子进輕中运行相的赛序，折的子进赛是父进程的一个 

函數在当前进赛的上下文中加我并运行一个新的租序.它会覆簋当 翁进祖 的地址空 
间，但并没有创建一个析 进狂， 新的程序仍然有相同的 
所有文件#述符. 


复制品 


execv & 


并且 鑣承了 钃用 


e 函教时打开的 


t 


味习厪 8.6 

编写一个叫做 myecho 的程序，它打印出它的命令行参数和环境变量。例如 


./myecho argl arg2 

Cominand line arguments : 

argv[ 0] : myecho 
argv[ 1] : argl 
argv[ 2]: arg2 
Environment variables ： 

ertvp[ 0] ; PWD=/usrO/droh/ics/code/ecf 
envp[ 1] : TERM^emacs 


j.nix> 
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envp[25] : USER^droh 

envp [261 ： SHELL= /uisr/ /bin/tC3h 

envp[27i : HOME=/usrO/droh 


8.4,6 利用 fork 和 execve 运行程序 

像 Unix shell 和 Web 服务器（第 12 章）这样的程序大量使用广 fork 和 execve 函数。 shell 是- 

个交互型的应用级程序，它代表用户运行其他程序。最早的 shel [是 sh 程序，后面出现了一些变种， 
比如 csh 、 tcsh、ksh 和 bash。shell 执行一系 列的读 / 求值 （ readmevaluate) 步骤，然后终 ih 。 读步骤 

读取来自用户的一个命令行。求值步骤解析命令行，并代表用户运行程序。 

8.20 展示了 个简申 ■ shell 的 main 例程。 shd】 打印一个命令行提示符，等待用户在 stdin 上 
输入命令行，然后求值 (evaluate) 这个命令行。 


code/ecf/shellex- c 


# include lp csapp.h" 
#define MAXARGS 128 


2 


function prototypes */ 

void eval(char *cmdline )； 


4 


int parseline(const char ★cmdline, char + ^argv) 
int bui 11in_coininand(char 




argvf ; 


int main() 


10 ( 


11 


chai cmdl ine [MAXLINE]; command line */ 


12 


13 


while (1) { 

/* read */ 
printf ( H ; 

Fgets[cmdline f MAXLINE, stdin) 
if (Eeo£(stdini) 

exit(0) : 


14 


15 


16 


17 


18 


19 


20 


/* evaluate 
eval(cmdline); 


21 


22 


23 


code/ecf/sh ellex. c 


图 8.20 —个筒单 shell 程序的 main 例程 

S 8.21 展示了求值 (evaluate) 命令行的代码。它的第一个任务是调用 parseline 函数（图8.22)， 
这个函数解析 r 以空格分隔的命令行参数，并构造最终会传递给 

被假设为 要么是 -个内 置的! ihell 命令名字，马上就会解释这个命令，要么是一个 pJ 执行的目标文件， 
会在一个新的了进程的上卜文中加载并运打这个文件 3 


的 argv 向量。第…个参数 


execve 


code/ecf/skeltex.c 


产 eval - evaluate a command line *1 

void eval(char *cmdline) 


2 
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char *argv [MAXARGS] ? /* argv for execve() V 

int bg; 

pid_t pid 


f* should the job run in bg or fg? */ 
I* process id *7 


bg = parseline(cmdline, argv) 
if Urgv[0] == NULL) 

return ； f* ignore empty lines */ 


10 


11 


if (Ibuiltin_ccmmand(argv)) { 

i: ((pid = Fork()) 


12 


0) { child runs user job */ 

if (execve(^rgv[0], argv 7 environ) 

printf (： Command not found,\n ri f argv[0]); 

exit(0 )； 


13 




14 


0 ) { 


< 


15 


36 


17 


18 


19 


/* parent waits for foreground job to terminate *1 

if dbg) { 
int status ； 

if (waitipidfpid, ^status, 0) 

unix 一 error("waitfg: waitpid 


20 


21 


22 


23 


0 ) 


< 


24 


error 


25 


26 


else 


27 


printf( M %d %s" f pid, cmdlinei; 


23 


29 


return 


30 


31 


if first arg is a builtin command T run it and return true *1 

int bui 11irt_coimnand (char **argv) 


32 


33 


34 


35 


if { JstrcmplargvfO], "quit")i 

exit (01; 

if (Istrcmp(argv [0] 

return 1 ； 
return 0? 


/* quit command 


36 


37 


I* ignore singleton & */ 




n 




38 


39 


/* not a builtin command *f 


40 


cod^cf/sk elkx-c 


8.21 eval : 求值 （ evaluate ) shell 命令行 


cod^/ecf/shellex^ c 


!* parseline - parse the coitu«and line and build the argv array V 

int parseline (const char *cmclline, char **drgv) 


char array [ MA> ： LINE] ； / + holds local copy of command line */ 
char *buf = array; /* ptr that traverses command line */ 
char *delim ； / + points to first space delimiter */ 

int argc; /* number of args */ 
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int bg ； 


P background job? + / 


strcpy(buf, cmdline )； 
but \ strlen(buf)-1]= 
while ( + buf &.&. (*buf 

buf ++； 


11 


’ ， ； I’ replace trailing with space V 

} ) /* ignore leading spaces 


12 




13 


14 


卜 build the argv list V 

argc 

while ((delim = strchr: (buf 

argv[argc++] = buf ； 

*delim = f \0 f ; 

buf 

while (*buf && {*buf 

buf ++； 


15 


16 


C; 


17 


18 


19 


20 


delim 


十 


21 


))/* ignore spaces */ 




22 


23 


24 


argv[argc] 


NULL ； 


25 


if {arge 二二 C} /* ignore blank line */ 

return 1; 


26 


27 


28 


/* should the job nm in the background? * / 

if ((bg = (gv[argc-1] == f 

argv [ 一 arge ] ; MU1 」 L; 


29 


30 


0) 


31 


32 


33 


return bg 


34 


code/ecf/sh&llex^ c 


8.22 parseline :为 shell —个输人行 

如果最后一个# 数是个 “&”字符，那么 parseline 返回1,表小-应该在后台执行晐程序 （shell 
不会等待它完成X否则，它返回0,表示应该在前台执行这个程序 （shell 会等待它完成)。 

在解 f/i /命令行之后1 evai 函数调用 builtin_command 喊数，该函数检査第一个命令 tr 参数是否 
是--个内置的 shell 命令 D 如果是，它就立即解释这个命令，并返回值1。否则，返冋0。我们简单 
的 shell 只有个 内置命令—— quit 命令，该命令是用来终出 shell 的，实际使用的 shell 有大景的命 
令，比如 pwd、jobs 和 fg。 

如果 builtiiLCOmmand 返冋0,那么 shell 创建一个子进程.并在 f 进枵中执行所请求的程序。 

如果用广要求在后台运行该程序，那么 shell 返回到循环的顶邹， 等待 K - 个命令行。否则， shdt 
便用 waitpid 函数等待作、 Ik 的终止。当作业终上时， shell 就开始下一轮迭代， 

注意，这个简单的 shell 是有缺陷的，因为它并不回收它的后台子进秤。修改这个缺陷就要求使 
用佶号，我们将在卜节中讲述信号。 


8_5信号 

到目前为||:，在我们对异常控制流的学中，我们己经看到 r 硬件和软件是如何合作以提供基 
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本的低层异常机制的。我们也看到了操作系统是如何利用异常来支持更高层形式的异常控制流的， 
也就是所谓的上下文切换 9 在本节中，我们将研究一个更高层软件形式的异常，称为 Unix 信号，它 
允 I 午进程中断其他进程。 

一 个信号 ( signal ) 就是一条消息，它通知进程一个某种类型的事件已经在系统中发生了。比如， 
图8+23屐示了 Linux 系统上支持的30种不同类型的信号 t 


号码 


名字 


tt 认行为 


相应事件 


终止 


终端线挂起 
来自键盘的中断 
束自键盘的退出 
非法指令 
跑踪陷阱 

来& abortS 数的终止信号 
总线错误 
泮点异常 
杀死程序 
苗户定义的信号1 
无效的存储器引用（段 故障〉 

用户定义的信号2 
向一个没有读用户的管道做写操4 
来自 alarm 凼教旳定时器传号 

软件终±信号 
协处理器 t 的栈故降 
一个 子进稃哲停或者终止 
继续进程如果该进程停止 

停止 f 到下■■个 S1GCONT (2) 丨不来自终端的暂停信号 
停山直到> 个 S1GC0NT 
悴止直剀下-个 SIGCONT 

停止直到卩-个 SKXONT ] 耵台进程向终端写 

套接？上的紧 急倚况 

CPU 时间限制超出 
文件大小限制超出 
虚拟定时器期满 
剖析定时器期满 
窗 U 大小变化 

在某今描述符上可执行1^0操作 
电湄故障 


SIGHUP 


终止 


SIG1NT 

SIGQUIT 

SIGILL 


终 


3 


终止 


终止并转储存储器〔1) 
终止并转储存储器〔1) 


SIGTRAP 


SIGABRT 


终止 


SIGBUS 


终止并转储存储器（1〕 
终II: (2) 


SIGPFE 


SIGKILL 


终止 


10 SIGUSR1 


终止井转储存储器 （1) 


1! S1GSEGV 

12 SIGUSR2 


终止 


终止 


13 SIGF1PE 


终止 


14 SIGALRM 


终止 


15 SICTERM 


终止 


16 SIGSTKFLT 




17 SIGCHLD 


忽略 


18 SIGCONT 


19 SIGSTOP 


20 SIGTSTP 


来自终端的暂挣信号 
后台进程从终®读 


21 siGnm 


21 S1GTTOU 


忽略 


.23 SJGURG 


终止 


24 S1GXCPU 


终止 


25 SIGXFSZ 


终止 


26 SIGVTALRM 


终止 


27 S1GPROF 


忽咯 


28 S1GW1NCH 


29 


终 lh 


SIGTO 


终止 


30 SIGPWR 


8-23 Linux 信号 

其他 Unix 系统是类似的。 注意： <1)多年前，主存储器是用-种称为磁芯存储器 （cotememory) 的技术 来实现 的。 • 嘗存 

储器 （dumping core )” 是-个历£术 g. 意思是把代码和数裾存储器段的映橡写到磁盘工。 （2) S 个信号既不能被捕获，也 
不能桩忽略， 
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每种信号类型都对应于某个类塯的系统事件。低层的硬件异常是由内核异常处理程序处理的，对 
用户进程而言通常是不可见旳。信号提供了一种机制向用户进枵通妇这些异常的发生。比如，卯果 t 
个 进稈试图除以 0, 那么内核就发送给它一个 SIGFPE 信号（号码 8 )。 如果一个进程执行一条非怯指 
令， 那么内核就发送给它一个 SIGILL 信号（号码 4 )。 如果进程有非法存储器引用，内核就发送给它 
-个 S1GSEGV 信号（号码 11 )。 其他信号对应于内核或者其他用户进程中较卨层的软件事件 。 比如， 
如果当进程在后台运行时，你键入 ctrl-c (也訧是同时按下 Ctrl 键和 c 键 X 那么内核就会发送一个 
SIGINT 信号（号码 2) 给前台进程。一个进程可以通过发送一个 SIGKILL 信号（号码 9) 强制终止 
另外一个进程。当一个 T 进程终上或者暂停时，内核会发送一个 SIGCHLD 信号（号码 17) 给父进程。 


8.5.1 信号术语 

传送一个信号到0的进程是由两个不同步骤组 成的； 

发送信号。内核通过更新3的进程上下文中的某个状态，发送（遂送）一个信号给 U 的进程。 
发送信号可以有如下两种 原因： ①内核检测到一个系统事件，比如除零错误或者户进稈终 
ih； ②-个 进程调用了 ki]l 函数（在 F- 节中讨论)，显式地要求内核发送一个信号给 H 的 
进程。-个进 程可以 发送信号给它行己。 

接收信号。当目的进程被内核强迫以某种方式对信号的发送做出反应时，口的进枵就接收 r 
信号。进程可以忽略这个信号，终 lL, 或者通过执行一个称为信号处理程序 (signalhandler) 
的用户层函数捕获这个信号。 

个只发出而没有被接收的信号叫做待处理信号 〔pendingsignal h 在任何时刻，，和类型至多 

只会有一个待处理信号。如果 - 个进程有一个类型为 fc 的待处理信号，那么任何接 T 来发送到这夂 

进程的类型为 k 的信号都不会排队等待，它们只是被简单地丢弃。 一个 进程可以有选择性地阻塞接 

收某种信号。3—神信号被阻塞时，它仍町以被发送，但是产生的待处理信号不会被接收，直到进 
程取消对这种信号的阻塞。 

-个待处理信号最多只能被 接收次 4 内核为每个进稈在 pending 位向量中维护着待处理信号 
集合，而在 Wocked 位向董中维护着被阻塞的信号集合。只要一个类型为 k 的信号被传送，内核就 
会 A pending 位向 t 屮设置第 k 个位， 而 K 要一个类型为 k 的信号被接收，内核就会在 pengdng 位 
向景中清除第 k 个位。 


_ ■ 


8.5.2 发送信号 

Unix 系统提供了大量的机制，用来发送信号给进程 t 所有这些机制都是基于进程组 〔process 

group ) 这个概念的。 

进程组 

每个 进程都只属于一个进 程组， 进稃组是由一个£整数进程组 ID 来标识的。 getpgrp 函数返回 
当前 进程的 进程纽 ID: 


#include <uni&td,h> 


pid_t getpgrpivoid )； 


返回： 调用进程的进程组 ID 


9 
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默认地，一个 T 进程和 它的父 进秤同 属于- 个进程组。一个进程可以通过使用 setpgid 函数来改 
变自己或者其他进程的进程组： 


^include <unistd,h 


pid_t setpgid(pid_ 


若成功则为0,若错误则为 -h 

setpgid 函数将进程 pid 的进程组改为 pgicL 如果 pid 是0，那么就使用当前进程的 PID 。 如果 pgid 
是0,那么就用 pid 指定的进程的 PID 作为进程俎 HX 例如，如果进程15213是调用进程，那么 


setpgid( 0 j 0 ) ; 

会创建一个新的进程组，其进程组 ID 是15213,并且把进程15213加入到这个新的进稃组中。 

用 km 程序发送信号 

/ biuTkill 程序可以向另外的进程发送任意的信号。比如，命令 

unix> kill .9 15213 

发送信号9 ( SIGKILL ) 给进程15213。一个为负的 PID 会导致信号被发送到 PID 进程组中的每个 
进程。比如，命令 


kill .9 .15213 

发送一个 SIGKILL 信号给进程组 15213 中的每个进程 


unix 〉 


从键盘发送倍号 

Unix shell 使用作业 ( job ) 的抽象概念来表示求值 （ evaluating ) —条命令行而产生的进程。在 
住何时刻，至多只有一个前台作业和0个或多个后台作业.比如，键入 


unix> Is I sort 


创建-个由两个进程组成的前台作业，这两个进程是通过 UniJt 管道连接起 来的： 一个进程运行 Is 
程序，另-个运行 sort 程序 u 

shell 为每个作业创建一个独立的进程组 D 典型地，进程组 ID 是取自作业中父进程中的一个。 
比如，图8+24展示了一个有一个前台作业和两个后台作业的 s hdL 前台作业中的父进程 PID 为20, 
进程组 ID 也为20。父进程创建两个子进稈，每个也都是进程组20的成员， 

在键盘上输入 ctrl - C ， 发送 SIGINT 信号到 shell 。 shell 捕获该信号（参见 8.5.3 节)，然后发送 

SIGINT 信号到这个前台进程俎中的每个进程，在默认情况中，结果是终止前台作业。类似地， 

入 ctri - 2 会发送一个 SIGTSTP 信号到 shell , shell 捕获这个信号，并发送 SIGTSTP 信号给前台进程 
组中的每个进程，在默认情况下，结杲是暂停（挂起）前台作业。 

_数发送信号 

进程通过调用 kill 函数发送信号给其他进程（包括它们自 d ): 




utm 


#include < sys / types , h > 
#include <signal , h > 


mt kill (pid_t pid, int sig); 


返回： 若成功則为 0, 若错误则为 -h 
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Did -10 j 

pgid -10 \ 


Shell 1 


pgid = 20 


台任务 

pgid =32 


E 台仟务 UP idM0 

pgid-^u 


前台仟务 


#2 


#] 


r [ 台进程组 32 


n 台进《组40 


} I 子进押 ) I 


pid ^2 l 

pgid-20 


pid -^2 

pgid-20 

•■■PI ymmmmm ■釁■— ■■■! 

前台进枸组 20 


8.24 前台和后台进程组 

如果 pid 入于零，那么 kil ] 函数发送信号号码给进程 pkU 如果 pid 小于零，那么 kill 发送信 
号 sig 给进程组 abs ( pid ) 中的每 个进乱 图 8.25 展不了一个示例，父进程利用 kill 函数发送 S 1 GKILL 
信号给它的子进稃。 




code/ecf/killc 


#inclucie -csapp.h 


ir.t msiii:) 


pid_t pid; 


7 


卜 child sleeps until SIGKILL signal received, then dies V 

if (；pid = Fork()) == 0) { 

()； 产 wait for a signal to arrive V 

priiiLf ("control should never reach here] \n M ] 

exit(0)■ 


10 


11 


12 


13 


14 


P parent sends a SIGKILL signal to a child */ 

Kill ipid, SIGKILL )； 

exit !0)； 


15 


16 


17 


code / ecf/kilic 


8.25 使用 Mil 函数传递信号给子进程 


alarm 闱数发送信号 

进程可以通过调用 alarm 阐数向它自 d 发送 SIGALRM 信号 
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include <unisto.h> 


unsigned int alarm(unsigned int secs); 


返司： 前一次闹钟剩余的眇數 P 若以前没有设定闹钟，则为 0. 


alarm 函数安排内核在 secs 秒内发送一个 SIGALRM 信号给调用进程。如果 secs 是零，那么不 
会调度新的闹钟 （alarm)。 在任何情况中，对 alarm 的调用都将取消任何待处理的 Cpending) 闹钟， 
并 R 返回住何待处理的闹钟应该发送前剩下的秒数（如果这次对 alarm 的调用没有取消它的话)，或 
者如果没有任何待处理的闹钟，就返回零。 

8.26 展示了 -个调用 alarm 的程序，它安排自己被 SIGALRM 信号在5秒内每秒中断一次。 
当传送第6个 SIGALRM 信号时，它就终止。 


code / ecf / alam + c 


# include n csapp*h 


void handler(int sigl 


static int beeps = 0; 


printf ("BEEP'n” ； 
if (++beep& 

Alam ( 1 ) ； /* nest SIGALRM will be delivered in Is V 


5) 


10 


else { 


11 


printf ( 11 BOOM ! Vn 11 ) 
exit ( 0 )； 


12 


13 


14 


15 


int main f ) 


16 


17 


18 


Signal I SIGALRM, handleri install SIGALRM handler 

Alarm (1} ； / * next SIGALRM will be delivered in Is */ 


19 


20 


21 


while (1) { 


22 


产 signal handler returns control here each time V 


j 


23 


24 


exit(0); 


25 


code / ecf/alarmx 


8 . 26 使用 alarm 函数调度周期性亊件 

当我们运行图 8,26 中的程序时，我们得到以 F 的输出： 5秒内每秒一个 “BEEP”， 后面跟随着 
程序终止时的一个 “BOOM”： 


urtix> , /alarm 
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BEEP 


BEEP 


BEEP 

BEEP 

BEEP 


BOOM! 


注意图 8,26 中的程序使闱 signal 函数设置 了-个 信号处 理函軚 ( handler ), 只要进程收到 - 个 
SIGALRM 信号，就异步地调用该函数，中断 main 程序中的无限 while 循环。3 handler 返回时，控 
制传递回 tmiin 函数，它就从3初被信号到达时中断了的地方继续执行 。 设置和使用信号处璀程序可 
能是相当微妙的，这将是下面三竹讨论的主题。 

8.5,3 接收倍号 

当内核从-个异常处理程序返冋，准备将控制传递给进程^时，它会检查末被阻塞的待处理信 
弓的集合 ( pe n ding &^ blocked) D 如果这个集合为空（通常情况)，那么内核传递控制给 p 的逻辑控 
制流中的 T 一条指令 (D 

然而，如果集合是非空的，那么内核选择集合中的某个信号 Jt (通常是最小的 it ), 并 tl 强制 
接收信号 fc 。 收到这个信号会触发进程的某种行为。 一 旦进程完成了这个行为，那么控制就传递叼 p 
的逻辑控制流中的卜 _ -条指令每个信号类型都有-个预定义的默认行 为： 

• 进程终止。 

• 进程终 ll : 并转储存储器 （dump core )。 

• 进稈暂停直到被 SIGCONT 信号重泊。 

• 进程忽略该信号。 

图8,23展示了与每个信号类型相关联的默认行为。比如，收到 SIGKILL 的默认行为就是终止 
接收进程。另外，接收 SIGCHLD 的馱认行为就是忽略这个信号。进程可以通过使用 signal 函数修 
改和信号相关联的默认行为。惟一的例外是 SIGSTOP 和 SIGKILL , 它们的馱认行为是不能修改的。 


P 


# include <signal , h> 

Lypedef void handler_t(int) 


handler_t * signal(int signum ； handler_t *handler) 


返曰：若成功则为指向前次处理程序的指针，若出錯則为 S 1 G - ERR 不设置 


ermo 


signal 函数口 J 以通过下列 H 种方法之一来改变和信号 signum 相关联的行为： 

• 如果 handler 是 SIGJGN , 那么忽略类型为 signum 的信号， 

• 如果 handler 是 SIG _ DFL , 那么类型为 signum 的信号行为恢复为默认行为。 

* 杏则， handler 就是用户定义的函数的地址，称为信号处理程序 （signal handler ). 只要进程 

接收到一个类型为 sigmim 的信号，就会调用这个程序。通过把处理程序的地址传递到 signal 
函数从而改变默认行为，这叫做设置信号处理程序。信号处理稈序的调甩被称为捕捉信号, 
信号处理程序的执行被称为处理信号。 

当-个进程捕捉了一个类型为 it 的信号时，为信号 Jfc 设置的处理程序被调用，同时惟一…个整 
数参数被设置为 L 这个参数允许同一个处理函数捕捉不同类型的信号， 
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当处理程序执行它的 return 语句时，控制（通常）传递回控制流中进程被信号接收中断位1处 

的指令。我们说“通常"是因为在某些系统中，被中断的系统调用会立即返回一个错误 & 

图 8.27 展示了一个捕获用户在键盘上输入 ctH - c 时 shell 发送的 SIGINT 信号的程序 。 SIGINT 

的馱认行为是立即终止该进枵 & 在这个示例中，我们将默认行为修改为捕捉信号，输出一条信息 f 
然后终 lL 该进程。 


code/ecfAsigintlx 


trinclijde M csapp*h 


2 


void handler (int sig) / + SIGINT handler */ 


4 


printf ( 11 Caught SIGINT\n ff ) 

exit(0)? 


7 


int main[) 


10 


/* Install the SIGINT handler */ 

if {signal(SIGINT, handler) == SI6_ERR) 

unix_erroir [ "signal 


11 


12 


13 


Ft 


error 


14 


15 


pause () ； / + wait for the receipt of a signal */ 


16 


17 


exit ( 0 ); 


18 


code / ecf/sigintL c 


8.27 一 个捕捉 SIGNT 信号的程序 

处理程序函数定义在第 3 〜 7 行中 □ 主函数在第12 〜 13行设置处理枵序，然后进入休眠状态， 
直到接收到一个信号（第15行)。3收到 SIGINT 信号时，运行处理程序，输出一条信息（第5行)， 
然后终 I.L 这个进程（第6行)^ 


C .* 


法习题87 

编写一个叫做 


的程序，有一个命令行 参数， 用这个参數调用习题&5中的 

然后终止.编写祖序，使得用户可以通过在健盘上输入 ctrl-c 中断 snooze 函教 t 比如 


禹數， 


snooze 


snooze 


ur»ix> * /snooze 5 

Slept for 3 of 5 
unix> 


User hits crtl-c (0er 3 seconds 


secs 


h 


8.5.4 信号处理问题 

对于只捕捉一个信号并终 it : 的程序来说，信号处理是简单直接的。然而，当一个程序要捕捉多 
个信号时_ 一些细微的问题就产 生了： 

• 待处理信号被阻塞 Unk 信号处理程序典型地会阻塞当前处理程序正在处理的类型的待处 
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理信号。比如 T 假设一个进程捕捉了一个 SIGINT 信号，并 R 当前甲在运行它的 SIGINT 处 
理程序。如罘另 '个 S 1 GINT 信号传递到这个进程，那么这个 SIG 1 NT 将变成待处理的，佝 
是不会被接收，肖:到处理程序返回。 

待处理信号不会排队等待。任意类型至多只有一个待处理信号。因此，如果有两个类型为 k 
的信号传送到一个 Cl 的进稃，而由 T 0 的进程当前正在执行信号 k 的处理枵序，所以信号 k 
是阻塞的，那么第二个信号就被简单地丢弃，它不会排队等待。关键思想是存在一个待处 
理的信号仅仅表明至少已经到达了一个信号。 

系统调用可以被中断。像 read 、 write 和 accept 这样的系统调用潜在地会阻塞进柠一段较长 

的时间，称之为慢速系统调用。在某些系统中，当处理程序捕捉到一个信号时，被中断的 

慢速系统调用在倍号处理程序返回时不再继续，而是立即返回给用广个错误条什，并将 

设置为 ErNTR ， 

it 我们利用 - 个简单的应用程序更深入地看看信号处理的细微之处，这个应用程序本质1:类似 
于 shell 和 Web 服务器这样的真实程序，基本的结构是一个父进程创建-些子进稈，这些进程独 
立 iiilT 一 会儿，然后终止。父进程必须回收子进程，以避免在系统中留 K 僵死进程。但是我们也想 
Li 父进程在子进程运行时可以 fl 由地做其他工作，所以，我们决定用 SIGCHLD 处理稈序回收了进 

程，而不是 I 式地等待了 1进程终止。（凹想一 r : 只要子进稈终止或者暂停时，內核就会发送一个 
SIGCHLD 信号给父进程。） 

S 8,28展#了我们的第一次尝试。父进程设置了 ■个 SIGCHLD 处埋柠序，然后创建/ 个 f 
进稈，其屮每个子进程运行1秒，然后终 if :, 同时，父进程等待来自终端的个输入行.随后处理 
它。这个处理被模型化为一个无限循环，当每个子进程终止时，内核通过发送一个 SIGCHLD 信号 
通知父进程。父进程捕捉这个 SIGCHLD 信号，回收一个子进程，做一些其他的淸除丁作（模型化 
为 sleep (2> 语句），然后 返回。 


ermo 


code/ecf/signall.c 


ttinclude ^csapp-h 


2 


void handler 丄 Unt sig) 


4 


pid_L pid 


if \(pid 


waitpid(-l, NULL, 0)) < 

unix_error ("waitpid error 11 ) : 

printf(^Handler reaped ^hild %d\n 
Sleep(2 }； 

return : 


01 


(intjpid ); 


10 


11 


13 


14 int main (} 


15 


16 


int i, n; 

char buf[M^XBUF ]； 


17 
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18 


19 


if (signal (SIGCHLD, handler'll SIG^ERB} 

("signal 


20 


unix—error 


error 


21 


/* parent creates children 

for (i 


22 


23 


0 ； i < 3 ； i++H 

if (Fork(} 

printf；"Hello from child %d\n p f (int)getpid ())； 
Sleep[：); 
exit(0 )； 




0 ) { 




2 b 


26 


27 


3 E 


2S 


30 


/ + parent waits for terminal input and then processes it 

il {(n = read(STD ： N_FiLEMO, b\il f sizeof (buf) i ) 

( n read H )； 


31 


32 


0) 


33 


imix error 


34 


35 


printf("Parent processing input\n M |; 
while ⑴ 


36 


37 


38 


39 


exit (0 )； 


40 


code/ecf/sigtuilLc 


8,28 signal! 

这个朽序是有缺陷的，因为它无法处理信号会 阴塞、 信号不会排队等待和系统调用可以被中断这些情 

^U.2S 中的 signal 1程序看起来相当简单。然而，当我们在 Linux 系统上运行它时，我们得到 
如卜 输出： 


* / signal 1 
Kello from child 10320 
Hello from child 10321 
Hello from child 10322 
Handler reaped child 10320 
Handler reaped child 10322 


imux> 


<cr> 


Parent processing input 


从输出中，我们注意到，尽管发送了 3个 SIGCHLD 信号给父进枵，但是只有其中的两个信号 

被接收了，因此父进程只是回收了两个子进程 a 如果我们挂起父进程，我们看到，实际上，+进程 
10321没有被同收，成为了一个僅死进程： 


Suspended 
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linux> ps 

PID TTY STAT TTME COMMAND 


10319 pb T 

10321 p5 S 
T0323 p5 R 

哪里出错了呢？问题就在于我们的代码没有解决信号可以阻塞和不会排队等待这样的事下 
面足所发生的情况： 

父进程接收并捕捉 r 第一个信号，当处理程序还在处理第一个信号时. 第二 个信弓就传送并添 
加到了待处理信号集合里。然而，因为 SIGCHLD 信号被 S1GCHLD 处理程序阻塞了，所以第二个 

信号就不会被接收。此后不久，就在处理程序 还在处 理第 - 个信号时，第二个信号到达了。因为已 
约有 f 一个待处理的 SIGCHLD， 第 二 .个 SKJCHLD 信号会被丢弃，一段时间之后，处理程序返回， 

内核注意到有一个待处理的 S1GCHLD 信号，就迫使父进程接收这个 信号， 父进程捕获信号，并第 
二次执行处理程序。礼处理程序完成对第二个信号的处理之后，己经没有待处理的 SIGCHLD 侑号 
了，而 fi 也绝不会再有，因为第二个 SK5CHLD 的所有信息都己经丢失了。由此得到的重要教训是, 
信号不町以用来对其他进程中发生的事件计数。 

为 HliK 这个问题，我们必须回想存在一个待处理的信号只是暗示自进程足后-次收到 
一 个信号以来，至少已经 有一个 这种类型的信号被发送了，所以我们必须修改 SIGCHLD 处理程序， 
使每次 SIGCHLD 处理程序被调用时，0收尽可能多的僵死子进程。图 8.29 展小 f 修改后的 
SIGCHLD 处理程序。 


0:03 signall 

0 ： 0D (sign^ll <zombie>) 

0:00 ps 


code / ecf /^ ignal 2 


^include "csapp.h 


1 


voic handler2[int sig) 


4 


pid—t pid ； 


7 


while “pid = waitpid (-1, WULL ； 0)) 

pr 丄 ntf (，'Handier reaped child %d\n 
if (errno != ECHILD) 

unix_error ('■waitpid error 11 \ ； 

Sleep (2); 
return: 


0) 


> 


int)pid) 


10 


13 


14 


15 


IriL main (} 


16 


int l, n; 

char buf [MAXBUF ; 


18 


20 


if (signal{SIGCHLD, handler2) == SIG„ERR) 
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i n signal 


21 


Unix .error 


error 


22 


/* parent creates children */ 

fnr (i - 0; i 


23 


3； [ 

if (Fork；) 0) { 

printf {"Hello from child %cS\n", {int) getpid()) 
Sleep{1); 

exit 10); 


24 


< 


25 


26 


27 


28 


29 


30 


31 


I* parent waits for terminal input and then processes it */ 

if { In = read(STDIN_FILEHO r buf F sizeof(buf))) 

unix_^rror { PF read error H }; 


32 


0) 


33 


34 


35 


36 


priritf (■■Parent processing input\n M ); 

while (1) 


37 


38 


39 


40 


exit(01; 


41 


code/ecf/signal2, c 


8,29 signal 

S . M 的-个 改进 版本，它能够正确解决信号会 ffi 塞和不会 ft 队等待的情况，然它没有考由系统调用被中断的耵能性。 


当我们在 Linux 系统上运行 S i S nal2 时，它可以王确地回收所有的僵死 f 进程了。 


linax> * /signal2 
Hello from child 10378 
Hello from child 10379 
Hello from child 10380 
Kdruller reaped child 10379 
Handler reaped child 10378 
Handler reaped child 10380 
<cr> 

Parent processing input 


然而，我们还没有完成任务。如果我们在 Solaris 系统上运行 S ignal2 程序，它会[确地回收所 

有的僵死子进程。然而，现在，被阻寒的 read 系统调闱在我们在键盘上进行输入之前，提前返 B3 — 
个错误 t 


solarise , /signal 2 
Hello from child 18906 
Hello from child 189C7 
Hello from child 189C8 
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Handler reaped child 13906 
Handler reaped child 18908 
Handler reaped child 18907 

read ： Interrupted system call 


出了什么问题呢？出现这个问题是因为在这个 Solaris 系统上，诸如 read 这样的慢速系统调用 
迮被信号发送中断后，是不会自动重启的 D 相反地 * 和 Linux 系统自动重启被中断的系统调用不同， 
它们会提前返回给调用应用程序一个错误条件。 

为了编写可移植的信号处理代码，我们必须考虑系统调用过早返回 T 然后 f 动重启它们的情况. 
割 8.30 展示了对 signa]l 的修改 ， 它会手动地重启被终止的 read 调用 。 ermo 卞的 EINTR 返冋代码 
表明 read 系统调用在它被中断后提前返冋了。 


codeJecfMgnal 3“， 


■■ 

I 


ftinclude ，■ esapp*h 


void hand!er2(int sig} 


pid_L pid 


while ({pid 

printf{^Handler reaped child %d\n rt , (int)pid); 
if {eirno != ECHILD) 

unix_error{"waitpid error™); 

Sleep(2); 
retjrn ； 


wait pid (-二 NULL, 0) } 


0) 


10 


11 


12 


13 


14 


15 


int main() { 

int i, r 


16 


17 


char buf[ maxbuf]? 


18 


pid_t pid; 


19 


20 


if (signal(SIGO ； LD, handler2) 

uni x_error {"signal error 11 )； 


STG_ERR) 




21 


22 


23 


/* parent creates children 56 / 

for (i = 0; i < 

pid = Fork n 

if (pid 

'printf ( ip Hg11o from child %d\n M f {ir^L) getpidf ))； 

Sleep(1 )； 

exit (0 )； 


24 


3? 


25 


26 


⑴ { 




27 


28 


29 


3fJ 


31 


32 
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33 


/* Manually restart the read call if it is interrupted */ 

while ((n = read{STDIH_FILENO, buf, siseof(buf))) 

if (errno != EINTR] 

read 


34 


0) 


< 


35 


36 


unix error 


error 


37 


38 


printf [ Ir Parent processing input 
while (1) 


n 


39 


40 


41 


4 


exit |0) 


43 


code/€cf/signul3. c 


图 8.30 signal3 

图 K29 的•个*进版它正确地解袂了系统调用可能被中断的情况， 


当我们在一台 Solaris 系统上运行我们新的 signa!3 程序时，程序会正确运行 


solaris> ./signals 
Hello from child 19571 
Hello from child 19572 
Hello from child 19573 
handler reaped child 19b/I 
Handler reaped child 19572 
Handler reaped child 19573 
<cr> 

Parent processing input 


8.5.5 可移植的信号处理 

不同系统之间，信号处理语义的差异——比如一个中断慢速系统调用是否重启或者永久放 
弃——是 Unix 信号处理的一个缺陷，为了处理这个问题， Posix 标准定义了 sigactimi 函数，它 
允许 Posi 兼容系统的用户，比如 Linux 和 Solaris 的用户，显式地指定他们想要的信号处理语 


义, 


ftinclude ^signal*h> 


int sigaccion(int s:gnum f struct ^igaction *act, struct sigaction *oldact); 


返回：若成功则为0,若出错则为 M 


sigactimi 函数运用并不广泛，因为它要眾用户设置一个结构的项0 (emry)。 一个更简洁的方式, 
最初是 Stevens 提出的 [81], 就是定义一个包装 （wrapper) 函数，称为 Signal, 它为我们调用 sigaction. 

8.31 给出了 Signal 的定义，它的调用方式与 signal 函数的调用方 式样， Signal 包 装函数 设置了 
一个笮号处理程序，其信号处理语义如下： 

• 只有这个处理程序 当前正 在处理的那种类型的信号被阻塞。 

• 和所有信号实现一样，信号不会排队等待。 
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只要 w 能，被中断的系统调用会 a 动重启。 

旦设置了信号处理程序，它就会一直保持，直到 Signal 带着 handler 参数为 SIGJGN 或者 
S 1 GJDFL 被调用。〔一些比较老的 Unix 系统会在一个处埋程序处迸完一个信号之后，将信 
号行为恢复为它的畎认行为 


code/src/csappx 


handler_t *Signal(in 匕 signum P h^ndler_t ^handler ； 


sLruct sigaction action y old_action ; 


4 


acLicn - sa_handler = handler; 

sigemptyset [Action. sa_mask) ; block sigs of type being handled */ 
action. sa_£Iags = 5A_RF, START; restart syscailsif possible */ 


if ( s igaction(signjm, faction, & ◦丄 d^actiorO 

unix_error {"Signal error ”： 
return [old_acLion.sa_handler )； 


0 ) 


< 


10 


11 


12 


code/srcksapp.c 


图 B .31 Signal 

S 职心 II 的 -- 个包装函数，它提供 Po^ixt 容系统的可移植倍弓 • 处押 D 

图 8,32 展示了图 829 中 signal 2 稈序的一个版本，该版本使用我们的 Signal 包装函数在不同 的计算 

机系统上获得⑷预测的信号处理语义。 惟 一的区别是我们是通过调用 Signal 而不是调用 signal 来设 W 处 

理稃序的。现在，程序既可以杵 Solaris 也可以在 Linux 系统 [.£ 确运行了， 闹我们 朽需要手动地重 
启被屮断的 read 系统调用了， 


code/ecf/signal4, c 


# include ■■csapp,h 


void handler2 (int sig) 


4 


pid_t pid; 


7 


while ((pid = wa 丄 Lpid(_l, NULL, 0)) 

printf( M Handler reaped child %d\n 
if (errno i= ECHILD) 

jnix^error("waitpid 


0) 


> 


(int)pid); 


10 


u 


ir 


error 


11 


SI eep(2 )； 
return; 


12 


13 


14 


15 


int main() 


16 


17 


rt 


18 


char buffMAXBUF] 
pid_t pid; 


M 

P 


19 
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20 


21 


Signal (SIGCHLD, handler2) ; / 4 sigactioo error-handling wrapper 14 / 


22 


23 


/* parent creates children 

for (i 


24 


i < 3; i++)( 

pid = Fork() : 
if (pid == 0} { 

printf \ "Hello from child %dW、(int }getpid(}) 
Sleep(1); 
exit(0 )； 


25 


26 


27 


28 


29 


30 


31 


32 


/* parent waits for terminal input and then processes it + / 

i£ I {n 


33 


34 


read[STDIN_FILEMO r buf, sizeof(buf) : ) 


0 ) 


< 




3S 


(^read 


umx error 


error 


36 


37 


print f ("'Parent processing input\n M )； 
while (1) 


33 


39 


40 


exit(0) 


41 } 


code/ecf/s ignatA. c 


图 8.32 signal 4 

图的-个版本，该版本通过使用我们的 Signal 包装函数得到可移植的信号处理语义。 

8.5.6 显式地阻塞信号 

应用程序可以使用 sigpromask 函数显式地阻塞和取消阻塞选择的信号： 


#include <signaL,h> 


int sigprocmaskiint how, const sigset_t *set, sigset_t *oldseL；; 

int sigemptysetisigset_t *set )； 
int sigfill&et(sigset_t j 

sigaddse 二 （ sigset_t *set x int signum) 
inz sigdelset(sigset_t *set, int signum); 


inL 


w 


返闰： 如果式功则为 o , 若出错则为-1。 

int sigismeinber (const sigset_L + set, int signum); 

返® J : 若 signum 是 srf 的成员則为1，若出错则为 0- 


sigpromask 函数改变当前己阻塞信3的集合 （ blocked 位向量在 8.5.1 节中描述)。具体的行为依 
赖于 how 的值 


I 

k 


SIG _ BLOCK : 添加 set 中的信号到 blocked 中 （ blocked=bbckedlseth 
S 1 G _ UNBL 0 CK 『 从 blocked 中删除 set 中的信号 tblocked = blocked & set )^ 

SIG . SETMASK ： blocked set a 
如果 oldset 非空， blocked 位向童以前的值会保存在 oldset 中。 




鲁 
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可以使用下列函数操作像 sei 这样的信号集合 4 sigempiyset 初始化 sei 为空集。 sigftllset 函数将 
每个信号添加到 set 中 asigaddset 函数添加 signum 到 set ， sigdelset 从 set 中脷除 signum ， 如果 lignum 
是 set 的成员，那么 sigismember 返回1，反之则返回 (K 

sigprocmask 喊数对于同步父了进程是很方便的。比如，考虑图8.33,它总结了一个典型的 Unix 
shell 的结构。父进程厶一个作业列表中记录着它的子进程。丐父进程创建一个 新的了 进程时，它就 
把这个子进程添加到作业列表中 D 当父进程在 SIGCHLD 处理程序中叵收一个终止的（僵 死） 了-进 
程时，它就从作业列表中删除这个子进枵。 


code / ecf / procmask + c 


void handler[int sig) 


pid_t pid; 

whi 1 e ((pid = waitpid(-l, NULL, 0) ) > 0) Reap a zcmbie child */ 

delete job (pid) ； /* Delete the child from the job list */ 
if {errnc != ECHILD) 

unix_error (''waitpid error"); 


4 


8 


9 


int main(int argc, char * *argv) 


10 


H ■■ 


int pid ； 
sigsct_t mask; 


12 


13 


14 


lb 


Signal(SIGCHLD, handler )； 
i n i t j ot s (}; /* Initialize the job list 


16 


17 


18 


while (1) ■: 

Sigemptyset (S=mask); 

Sigaddset(tmask, SIGCHLD); 

Sigprocm^sk [S ： G_ELOCK, Sjnask, NULL) : /* Block SIGCHLD 


19 


20 


?1 


22 


23 


f* Child process + / 

if ({pid = Fork()) 

Sigprocmask ( SIG_UNBL0CK, ^mask, NULL) ； /* Unblock SIGCHLD */ 

Execve ( 11 /bin/ Is 11 , argv, NULL); 


24 


0) { 


2b 


26 


27 


28 


/* Parent process */ 

add j ob(pid) ; Add the child to the job list + / 

Sigprccmask (SlG.UNBLOCK.&msk, NULL) ； /* Unblock SIGCHLD */ 


29 


30 


31 


32 


33 


gxiz [ 0 ); 


34 


code / ecf/p roc mask , c 


8*33 用 sigprocmask 来同步进程 


这个 4 例中，父进 K 汴相应的 ddetejoh 之前保证执 tf 广 addjob 
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如果我们不以某种方怯同步父了进程，那么就可能发生下面的情况： 

• 父进程执行 fodc 函数，并 R 内核调度新创建的子进程代替父进稈运行。 

• 在父进枵可以再次运行之前，7进程会终七，并变成一个僅死进程，使得内核传递一个 

SIGCHLD 信号给父进程。 

• 后來，当父进程再次变成可运行但又在它执行之前，内核注意到待处理的 SIGCHLD 信号， 

并通过在父进程中运行处理程序接收这个信号。 

-处理程序回收终土 的了进 程，并调用 ddetejob t 这个函数什么也不做 f 因为父进程还没有把 

该了进程添加到列表中^ 

• 在处理枵序运行完毕后，内核运行父进程，父进程从 fork 返回 f 通过调用 addjob 错误地把 

(不存在的）子进程添加到作业列表中， 

关键问题是如果我们什么都不做，那么就可能在执行 addjob 之前，执行 deletejob。 图8,33展示 
了改 JH 这个问题的一种方法。通过在调用 fork 之前，阻塞 SIGCHLD 信号，然后在我们调用了 addjob 

之后就取消阻塞这些信号，我们保证了 在了进 程被添加到作业列表中之后，回收该了进程。 

注意了-进程继承了它们父进程的被阻寒集合，所以我们必须在调用 execve 之前，小心地解除了 - 
进程中咀塞的 SIGCHLD 信号。 


8.6 非本地跳转 

C 提供了一种形式的用户级异常控制流，称为非本地跳转 （m>iilocaljiinip) t 它将控制直接从 

个竓数转移到另一个当前 t 在执行的函数，而不需要经过正常的调用-返回序列。非本地跳转是通 
过 setjmp 和 longjtnp 函数来提供的。 


■ ^ 


inclade <setjmp,h> 


nt ^etjmp(jmp_buf env); 

nt sigsetjmp fsig]mp_buf 


int savesigs) 


env 


返®; setjmpOi kmgjmp 返回非 零。 

setjmp 螭数在 env 缓冲区中 保存当 前栈的内容，以供后面 longjmp 使用，并返回0。 


# include <setjmp,h> 


void longjmpfjmp_buf env, int retval )； 
void Biglongjmp(sigjmp_buf env, int retvalJ ； 


火不返 0 

kmgjinp 函数从 env 缓冲区中恢复栈的内容，然后触发』个从最近一次初始化 env 的 setjmp 调 
用的返回。然后 setjmp 返回，并带有非零的返回值 retvd, 

第一眼看过去， setjmp 和 tongjmp 之间的相互关系令人迷惑 。 setjmp 函数只被调用一次，但返 

次是 当第一次调用 setjmp, 而栈的上下文保存在缓冲区_ env 中时：一次是为每个相应 
的] ongjtnp。 另…方面， longjmp 函数只被调用一次 T 但从不返回。 

非本地跳转的一个重要应用就是允许从一个深层嵌套的函数调用中立即返回，通常是由检测到 


D 


回多次 
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某个错误惰况起的。如果在一个深层嵌套的阐数调用中发现了…个错误情况，我们吋以使用非本 
地眺转 h. 桉返冋到一个待通的本地化的错误处理程序，而不是费力地解幵调用栈。 

图 8.34 M 示/一个示例，说明这 aj 能是如何丄作的。 main 函数首 先调用 setjmp 以保存3前栈 
的丄下文.然后调用闲数 fbo, foo 冉调用闲数 bar. 如果 foo 或者 bar 遇到-个错误 7 它们立即通过 
一次 lragjmp 调用从甽 mp 返回。㈣ mp 的非零返回值指明 f 错误类型，随后可以被解码， H 在代 
码中的某个位腎进行处理。 


code/ecf/setjmp. c 


# include ■■ csapp.h 


jrrp_bjf but 




inL error ! 
: r.t error 2 


0? 


8 


void foo [ void ), bar ( void ); 


10 int rna in () 

11 f 


1? 


t nr rc ; 


13 


14 


setjmp(buf) : 


rc 


15 


if (rc 


0) 


fool) ; 
cl if (rc 

printf ('"Detected an error 1 condition in foo \ n lp ) 
i.E {rc 

printf ("Detected an error 2 cond : t ' on in foo ^. n 11 }； 


16 


l 




18 


19 


2 ) 






20 


2 ] 


else 


22 


pi int f 1 1P Unknown error condiLion in fcioW ”； 


exit (0); 


24 


26 /* deeply nested function foo */ 

void foo ( void ) 


27 


28 


29 


( eriorl ) 

longjmp{buf, 1 )； 


30 


31 


bar () 


32 


33 


34 


void bar ( void ) 


35 


36 


if ( error 2} 
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11 


longjmplbuf f 2) ; 


code/ecf/setjmpx 


图 8.34 非本地跳转的示例 

这个# 例发明/使用非本地眺柃来从深层嵌套的 S 数逋用中的错误情况恢复.而不要解开整个桟的基本框架。 


非本地跳转的另一个重要应用是使一个信号处理程序分支到一个特殊的代码位置，而不是返回 
到被信号到达中断广的指令的位置。图 8.35 展示了--个简单的程序，说明了这种基本技术 6 当用户 
在键盘上键入 cttl - c 时，这个程序用信号和非本地跳转来实现软重启， sigsetjmp 和 sigbngjmp 函数 
是 setjmp 和 longjmp 的可以被信号处理程序使用的版本， 


code/ecfremrt, c 


# include '■csapp.h 


sigjmp_buf buf ； 




void handler(int sig) 


siglongjmp [but f 1) 


int main(} 


10 


12 


Signal(SIGINT ； handler); 


13 


U 


if (! sigset jrapibuf, 1)) 

printf( r starting\n H ); 


15 


16 


else 


printf [ '"restarting\n"); 


16 


while(1) { 

Sleep ⑴； 

printfI"processing ， ， 。 \n n ) 


2C 


21 


22 


23 


exiz (Oh 


24 } 


code/ecf/restart. c 


图 8.35 当用户键人 cW- c 时， 一 个使用非本地跳转来 S 启动它本身的程序 

在程序第一次启动时 T 对 sigsajmp 函数的初始调用保存了栈和信号的上下文随后，主函数进 

人一个无限处理循环。当用户键入 ctiNc 时， shell 发送一个 SIGINT 信号给这个 进程， 该进程捕获 

这个信号。不是从信号处理程序返回，此时信号处理程序会将控制返回给被中断的处理循环，取而 

代之的是，处理程序执行…个非本地跳转，回到 main 函数的开始处 & 当我们在系统 t 运行这个程序 
时，我们得到以下输出： 


548 


^rest^rt ： 


unix> 

star 匕 ing 

processing,,, 

procsssing... 

restarting 

processing. , * 

restarting 

process_ng *,■ 


user hits cirl-c 


U^er hits Ctrl - c 


旁注： c +^] Java 中的软件异常 

C++ 和 Java 提供的异常机制是软高层次的，是 C 的 se^mp 和 longjinp 函教的更加结构化的版本, 
你可以把 tty 语句中的 catch 子句看做是 setjmp 函教的类似物，相似地， throw 语句就类似于 longjmp 


函教. 


8.7 操作进程的工具 


Unix 系统提供/人 t 的监捽和操作进程的有用工具： 

strace: 打印一个程序和它的了进程调用的每个系统调用的轨迹。对 f 好奇的学生而§，这是一 

个令人着迷的！.具。用 -stalk 编译你的程宇，能得到一个更清楚的轨迹，而不带冇人量与共莩库相 
关的输出。 


碎：列出系统屮 ai 的进程（包括僵死 进稈乂 
top: 打印出关于当前进程资源使用的信息。 

kill: 发这•个信号给进程6 对于 调试带信号处理程序的程序以及清除难以琢磨的进程是非常有 


用的 c 


/proc (Linux 和 Solaris)r 一个虚拟文件系统，以 ASCII 文本格式输出人量内核数据结构的内 
容，用户程序印以渎取速驻内容。比如，输入 “cal/proc/loadavg : 观察在你的 Linux 系统上1前 K 

平均负载， 


8.8 小结 


异常控制流发生在计筧机系统的各个层次 & 在硬件层，异常是由处理器中的事件触发的控制流 

中的突变，控制流传递给一个软件处理程序，该处理程序进行一些处理，然后返回控制给被屮断的 
控制流。 


有四种不同类型的异常：中断、故障、终十_和陷阱。当一个外部的1/0设备，例如定时器芯片 
或者一个磁盘控制器，设置了处理器芯片1：的中断管脚时_ (对于任意指令）中断会异步地发生。控 
制返回到中断指令 2 的 K 一条指 令1 执行一条指令可能导致故障和终止的发生。故障处理程序会重 

新开始故障指令，而终止处理程序从不将控制返回给被中断 的流。 最后 T 陷阱就像是用来实现系统 
调用的函数调用，系统阔用提供给应用到操作系统代码的受控入口点。 


原文为战陣指令。 —— if? 
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在操作系统层，内核提供关于一个进程的基础性概念。一个进程提供给应用两个重要的抽象： 
①逻辑控制流，它提供给每个程序-个假象，好像它是在独占地使用处理器 ： @私有地址空间，它 
提供给每个程序一个假象，好像它是在独占地使用主存。 

在操作系统和应用之间的接口处 T 应用可以创建子进程，等待它们的子进程暂停或者终止，运 
行新的程序，并捕捉来0其他进程的信号。信号处理的语义是微妙的，并且随系统不同而不同。然 
而，在与 P 0 S ix 兼容的系统 t 存在着一些机制，允许程序淸楚地指定期望的信号处理语义。 

最后，在应用层， C 程序可以使用非本地跳转来规避正常的调用/返回栈规则，并且直接从一个 
函数分支到 另-个 函数。 


参考文献说明 

Intel 微体系结构规范包含对 Intel 处理器 h 的异常和中断的详细讨论 [18 h 操作系统教科书 [70, 
75, S 3] 包括关于异常、进程和信号的其他信息。 Stevens 的经典著作 [76] f 虽然有点过时了，但是仍 
然包含一些有价值的和可读性很髙的描述，是关于如何在应用程序中处理进程和信号的= 

家庭作业 
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在这 章 里，我们介绍了一些有不寻常的调用和返回行为的 函数： setjmp , longjmp , execve 
fork 。 找到下列行为中和每个函数相匹配的一种： 

A . 调用一次，返回两次。 

B + 调用一次，从不返回。 

C . 调用一次，返回一次或者多次 。 


8.9 






K 面程序的可能的输出是什么? 


code/ecf/forkp roh3, c 


^include "csapp.h 


2 


int maini) 


4 


5 


int x 


6 


if : Fork (丨 1= 0} 

priritf ( 1l x=%d\n F1 , +4x); 


8 


10 


printf I ]l x=%d\ii H 
exit(0 )； 


--x); 


1] 


12 


code/ecfjfo rip robZx 


8.10 


ri 




K 面这个程序会输出多少个 “ hello ” 输出行 
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code/ecf/forkprob5, c 


ttinclude 11 csapp .h 


3 vt ； Ld doic () 


4 


if (For^f) 0) { 

Fork ()； 

print f ("hellcAn 
QyAt (0 i ; 


7 


9 


10 


return ; 


11 } 


12 


iriz main( 1 


14 


doit ()； 

prinLf { ,r heLlo\n ")； 

exit ⑴）； 


15 


16 


17 


18 


code/e cf/fo rkp rob5 . c 


8.11 


下面这个程序会输出多少个 “ hdio ” 输出行? 


code/ecf/forkprob6.c 


#include ” csapp.h 


void doit {) 


if (Fork() 

( ) ? 

printf \ "hellova " 1 )； 
ret m; 


3) t 


_ 


10 


return ； 


11 1 




13 


i nt main {} 


14 


15 


doit [)； 

printf ("hello\n ,r )； 

exit(0 ); 


16 


17 


18 


code/ecf/forkprohb, c 
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8.12 


LJ 


f 面这个程序的输出是什么? 


code/ecf/fo rkprohl. c 


乒 include n csapp + h 
int counter ; 1; 


2 


A 


int main () 


if (fork() 0) { 

counter--; 
exi ^(0); 


8 


9 


1C 


else { 


11 


Wait(HULL) ? 
printf ( 11 counter 




%dW, ++counter ]； 


13 


14 


exit(0) 


15 


code / ecf/fo rkp rob ?, c 


B.13 


列举练习题 84 中程序所有可能的输出。 


8.14 ♦參 

考虑 卜面 的程序 


code/ecf/fo rkp ro ft 2. c 


ttinclude '"csapp.h 


void end(void) 


4 


orintf ( lr 2 11 ); 


8 


int main() 


9 


10 


if ； Forkf) 0) 

atexit(end); 
if !Fork() == 0) 

printf1^0"); 


11 


12 


13 


14 


else 


15 


printf [ 11 1 ")； 


16 


exit (0); 


17 ] 


code/^cfforkpwb2. c 
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判断卜面哪个输出是町能的。注意： atexit 函数以一个指向函数的指针为输入，并将它添加到闲 
数列表中（初始为空），函数被调用时，会调 ffl 该列表中的函数。 

A* 112002 
B . 211020 
C- 102120 
D* 122001 

E . 100212 


8.15 ♦♦ 

使用 execve 编写一个叫做 myis 的程序，该程序的行为和 /bin/ls 程序的…样。你的程序应该接 
受相同的命令行参数，解释同样的坏境变景1井产生相冋的输出。 

Is 程序是从 COLUMNS 环境变量中获悉屏幕的宽度的。如果没有设置 COLUMNS* 那么 k 会 

假设屏幕宽80列。因此，你可以通过把 COLUMNS 环境设 M 得小于80,来检査你对环境变量的处 


埋 


unix> satenv COLUMNS 40 

* /myIs 

... output is 40 columns wide 

unix> unsetenv COLUMNS 

unix> 

... outouL is now 80 columns wide 


unix> 




8.16 ♦♦♦ 

修改？ I 8J5 中的稈序，以满足 h 面两 个条件 f 
K 每个 f 进程在试图写个只读文本段中的位置时会异常终止。 
2 + 父进程打印和卜_面所示相同（除了 PID) 的输出： 


child 122hS terminated by signal 11: Segmentation fault 
child 12254 terminated by signal 11: Segmentation fault 

提小：请参考 wah(2) 和 psignal(3> 的 man 

8.17 ♦♦♦ 

编写你白己版本的 Unix system 函数： 

int. mysystem (char * command}; 

my system 函数通过调用 “/bin/sh -c command” 来执行 command T 然后 ili command 克成后返冋。 
如果 command 正常退出（通过调用 exit 函数或者执行一个 return 语句 ）i 那么 my system 返回 command 

的退出状态。比如，如果 command 通过调用 exit(8) 终止，那么 my system 返冋值8。否则，如果 command 
异常终 ihi 那么 mysystem 返冋由 shell 返回的状态。 


8.18 


你的一位同事正在考虑使用信号来允许一个父进程计算 f 进程中发生的事件数。基本恩路是每 
次一个事件发生时，通过发送个信号来通知父进程，并且让父进程的倍号处理程序增加全局变量 
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父进程随后可以在子进程终止时检测该变量，然而，当在系统上运行图 8.36 中的测试程序 
时，他发现当父进程调用 printf 时， C oun 时总是保持一个值2,即使是 f 进程已经发送了 5个信号 
给父进程。带着困惑，他来向你求助 a 你能解释一下这个程序有什么错误吗？ 


counter 


v 


code/ecf/coun terp roh 


^include ,p csapp.h 


2 


int coianter - 0; 


4 


void handler (int sig) 


counter ++； 

sleep (1) r 产 do some work in the handler */ 

return; 


9 


10 


■ i 


12 


int min() 


13 


14 


int i ; 


15 


16 


Signal(SIGUSR2, handler )； 


17 


if (Fork (] 0) { /* child */ 

0 ; i 

Kill(getppidf), SI3USR2); 
printf ( 「sent SIGUSR2 to parent\n ,p ); 


IB 


19 


for [i 


5; i++) { 


20 


21 


22 


22 


exit (0) 


24 


25 


26 


Wait(NULL); 

pirintE ( H counter=%d\n n , counter); 
exit(0 )； 


27 


28 


29 } 


code/ecf/counterproh.c 


8*36 图 8.18 中引用的技术程序 


8.19 ♦♦♦ 

编写 fgets 函数的一个 版本， 叫做 tfgeh 它 5 秒钟 G 会超时 。 tfgets 函数接收和 fgets 相同的输 
A . 如果用户在 5 秒内不键入 一 个输入行， tfgets 返回 NULU 否则，它返回一个指向输入行的指针 & 

8.20 ♦ ♦♦令 

以图 8.20 中的示例作为幵始点，编写一个支持作业控制的 shell 程序。你的 shell 必须具有以 F 


眺 
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用户输入的命令行由一个 

分隔开的。如果 name 是-个 内置命令，那么 shell 就立即处理它，并等待下一个命令行， 

否则， she 】 [就假设 name 是个可执行的文件，在一个初始的了进程（作业）的上下文中加 
载并运行它。作业的进程组 ID 与了进 程的 PID 相同。 

每个作、 [ k 是由一个进程 ID ( PID ) 或者一个作业 ID CJID ) 来标识的，它是由一个 shell 分 
配的小的任意 ir : 整数。 JID 在命令打上用前缀“％”来表示，比如，“％5” 表 > jUlD 5, 而 “5” 

表小 PID 5. 

如果命令行以&来结柬，那么 shell 就在后台运打这个作业，否则 f shell 在前台焰彳丁这个作 


零个或者多个参数组成，所有的都是由一个或者多个空格 


name 




业。 


输入 ctrl-c (ctrl ， z) ， 使得 shell 发送一个 SIGINT (SIGTSTP ) 信号给前台进程组屮的每个进 


程。 


_内苒命令 jobs 列出所有的后台作业。 

• 内置命令 bg<job> 通过发送一个 SIGCONT 信号重启 <job>， 然后在 P 台运行它。 <job> 参数 
可以是一个 PID， 也可以是一个 JID C 

• 内置命令 fg<job> 通过发送一个 SIGCONT 信号重启<灿>,然后在前台运 仃它， 

* shell 回收它所有的傕死子进稈。如果任何作业因为它收到 ，个 来捕捉的信号而终丄，那么 
shell 就输出条信息到终端，包谗该作业的 PIDfll 对违规信号的描述。 

_ 8,37 展小了 一个示例的 shell 会话。 


/shell 


Run your shell program 


unix> 

> bogus 

bogus : Conuriand not found, 

> foo 10 

Job 5035 Lerminated ty signal i Interrupt 

> foo 100 & 

[1] 5036 foo 100 & 

> foo 200 4 

[2] 5037 foo 200 & 


Execve can’t find executable User types ctrl-c 


jobs 


11 5036 Running 

:2] 503^ Running 

>/g%/ 

Job [1] 5036 stopped by signal : Stopped 


foo 100 & 

foo 200 & 


User types ctri-z 


jobs 


[1 ] ^(336 Slopped 

[2] 5037 Running 

> bg 5035 

^035: No such process 

> bg 5036 

[1] 5036 foo 100 & 

> /bin/kill 5036 

Job 5036 terminated by signal: TerinirLated 


foo 100 
foo 200 & 
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Wait for fg job to finish. 


tq %2 


> quit 

unix> 


Back to the Unix shell 


8,37 习題 8-20 的 Shell 交互示例 


练习题答案 


练习题 8.1 答案 

在我们图8,13中的示例程序中 t 父子进程执行无关的指令集合。然而，在这个稈序中，父子进 
程执行的指令集合是相关的 f 这是有可能的，因为父子进程有相同的代码段.这会是一个概念上的 
障碍，所以请确认你理解了本题的答案。 

A, 子进程的输出是什么？这里的关键点是子进程执行了两个 printf 语句。在 (brit 返回之后， 
它执行了第8行的 priiitf。 然后它从 if 语句中出来，执行了第9行的 printf 语句。下面是子进程产生 


的输出 


printfl : x=2 
printf 2: x-1 


B. 父进程的输出是什么呢？父进程只执行了第9行的 printf: 


printf 2: 


练习题 8.2 答案 

这个程序和图 8」4(c) 中的程序有相同的进程图，一共有四个进枵，每个打印一个 “hello 〃仏 
因此，程序打印四个 "hello" ft. 

练习题 8.3 答案 

这个程序和图 8.14 (c) 有相同的进程图.一共有四个进程，每个输出一个单独的 "hello” 行在 
doit 巾，并且在它从 doit 返回后也在 main 中输出一个 “hello ”行 6 因此，这个程序就…共有 A 个“ hell (/ 
行输出. 


练习题 8.4 答案 

A. 每次我们运行这个程序，就会产生六个输出行。 

B. 输出行的顺序根据系统不同而不同，取决于内核如何交替执行父子进程的指令。一般而=， 
下图的任意拓扑排序都是有效的 顺序： 


2 


Bye 


父进程 


Hello 


子进程 


Bye 


- > 


比如，当我们在系统上运行这个程序时，会得到下面的输出 


unix> ■ /waitprobl 
Hello 


第 8 章 


556 


Bye 


Bye 


在这种情 况中， 父进程首先运行，在第8行打印 “Hdlo' 在第10行打印对 wait 的调用 
会 m 塞，因为子进程还没有终 ih, 所以内核执行一个上卜文切换，并将控制传递 给了进 程， 了进 程 
在第10打打印 “ r ， 在第16行打印 “ Bye' 然后在第17行终止，退出状态为2。在 T 进埕终止 
后，父进程继续，在第14行打印7进稈的退出状态，在第16行打印 “Bye”。 

练习题 8 . 5 答案 


code/ecf/snooze.c 


unsigned int snooze(unsigned int secs)( 

=sleep(secs); 


2 


unsigned int 
print! ( 11 Slept for %u of %u secs + \n 

return rc; 


rc 


rc, secs ); 


secs 




code/ecfimoote. c 


练习题 8 . 6 答案 


code/ecf/myecho. c 


Sinclude "csapp.h 


2 


int main(int argc, char *argv [ ], char *envp[]) 


4 


printf ( Pl Command line arguments ^ \n lp ); 
for ( i = 0; drgv L i I I - NULL ； i + +:i 

print f [ 


8 


argv[%2d] : %s\n 


argv[i]) 


n 


1 


； 


； 


ID 


]1 


print f { ir \n lp ); 

P^inlif ( ,p Environment variables : \ n ”) ； 

far {i=0; envp[i] ! - NULL; i 十十 } 

printf( 


12 


13 


Id 


envp[%2d] : %s\n M , i, envp[i ])； 


15 


16 


exi L .(0 )； 


code/ecf/myecho. c 


练习题 8 . 7 答案 

只要休眠进程收割个+被忽略的信号， sleep 函数就会提前返回。但是，因为收到个 SIGINT 
信号的默认行为就是终止进稈（围 8.23 ) T 我们必须设置一个 SIGINT 处理程序来允许 sleep 函数返 


异常控制流 


557 


回。处理程序简单地捕捉 SIGNAL ^ 并将控制返回绐 sleep 函数，该函数会立即返回 


code/ecf/snooze.c 


封 include ■_csapp,h 


3 /♦ SIG INI handler V 

void handler[int sig) 


d 


return; /* catch the signal and return */ 


unsigned int snooze(unsigned int secs) { 

unsigned inV. rc - sl^ep(secs) ； 
pjrintf ; P| Slept for %u of %u secs . \n H , 
return rc; 


11 


secs )； 


secs 


rc 




12 


13 


14 


15 int mairi (int argc, char **argv) f 


16 


17 


if (aroc 2 ； { 

fprintf t$tderr x ^usage: %s <secs>'n n r argv[0I) 
exit CO); 


18 


19 


20 


21 


22 


if (sigr.al {SIGIWT, handler) 

unix_error ( ir signal errorNn 11 ); 
(void) snooze(atoi(argvt1 }))； 
exit[0 )； 


SIG ERR) J* instaU SIGINT handler 


23 


24 


25 


26 ) 
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人们经 常问的一个问题是：“程序 X 在机器 Y 上运行得有多快? 


个试图优化程序性能的程 
序员，或者一个想要决定买哪台机器的顾客， pI 能会提出这样的问题，在我们前由对性能优化的讨 
论中（第 5 章) t 我们假设能够非常准确地回答这个问题。我们试图把程序的 CPE (每兀素的周期 

数）测量值精确到小数点后两位。对…个 CPE 为彳0的过程，这要求精确度为在本章中，我 
们会讲述这个问题，丼会发现它是非常复杂的。 

你可能会以为在计算机系统上获得几近完美的计时测量会很简单，甲竟，对于某个程序和数据 

的组合，机器会执行固定的指令序列。指令的执行是由处理器时钟控制的，而处理器时钟是 [ tl 精度 

振荡器控制的 D 不过，一个程序的执行与另一个程序的执行之间有许多因素是不同的 □ 计算机并不 

同时只执行一个程序。它们不停地从一个进程切换到另一个，为一个进稈执行一些代码，然后冉移 

到卜一个进程。对-个程序的处理器资源的准确调度依赖于这样一些因素，例如共享系统的用户数 

量、网络流量和对磁盘操作的计时。对高速缓存的访问模式不仅仅依赖 r ■我们正在试图测垠的柠序 

的引用，还依赖于同时正在执行的其他进程 • 最后，分支预测逻辑会根据以往的历史猜测是杏会选 
择分支。一个程序每次执行的历史都小相同。 

在本章中，我们描述计算机用来 B 录时间流逝的两种基本 机制： …种基于低频率计时器 （ timer )， 
它会周期性中断处理器：另一种基于计数器 （ counter ), 每个时钟周期计数器会加 U 应用枵序的稈 
序员可以通过调用库函数获得对前一种计时机制的访问。有些系统上， p (以通过库函数周期计 
时器 （cycle timer ). 但是有些系统上需要编写汇编代码我们将程序计时推迟到现在才岢论， 
为程序计时需要理解 CPU 硬件和操作系统管理进程执行的方式。 

使用这两种计时机制，我们来研究获得程序性能的可靠测暈值的方法。我们会看到，由卜_ 

文切换引起的计时变化会非常大.因此必须消除。由其他因素引起的变化，例如高速缓存和分支预 

测，通常是通过在精心控制的条件下执行程序操作来管理的。一般来说，我们 nj 以获捋对于非常短 

(小于大约 10 ms ) 或者非常长（大于大约 Is ) 的时间段的准确测暈值，即使是在负载很 f 的机器 
上。 〗0 ms 〜1 3 之间的时间要想准确测量需要特殊的处理。 

许多对性能测童的理解都是计算机系统传说的一部分.不同的小组和个人开发了他们自 j 的测 

量程序性能的技米，但是关于这个主题没有广泛流传的文献，那些 专业 性麵量的公 Ti ] 和研究组， 

常常建立特殊配置的机器，使得造成计时不规则的来源最少，例如，通过限 制访问 或者关神许多 os 

和网络服务。我们希望能有程序员在普通机器上就能使用的方法，何是没冇这样的广泛川获棚厂 
具。所以，我们会开发我们自己的工具. 

在这里的描述中，我们会系统地讲述这些问题 。 我们描述人贵实验的设计和评价，这呰实验帮 
助我们获得在一规模系统上取得准确测量的方法在一本这个屋次的书中找到详细的实验研究还是 

不太常见的通常，人们只想要最后的答案，而不想知道是怎样确定这些答案的 

对于 如何紐 縣缸_任網賴执行_，有太繩 it . 时机制、 

操作系统行为和运行时环境，不可能有-个惟一的、简单的解决方案□相反，我们期娜自』故实 

验，开发你自己的性能测量代码 a 我们希望我们的案例研究能帮助你完成这项任务。 

发现以协议的形式总结出来，它能够指导你的实验 4 




細 


不过， / t : 这甲. 


6 


我们把我们的 
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9.1 计算机系统上的时间流 

计算机是在两个完全不 M 的时间尺度 ( timescale ) i : 丁作的。在微观级别，它们以毎个时钟周 

■ 

期…条或多条指令的速度执行指令，这每个时钟周期要大约 Ins 〔纳秒 ）^ 10- 9 s , 在宏观 
尺度匕处理器必须响应外部事件，外部事件发生的时间尺度要以 ms (亳秒）或者 10_ j S 来度* . 
例如，在视频播放时，大多数计算机的图形显示器必须每 33 ms 刷新一次。保持世界记录的打字员 
敲键盘的速度也只能是大约每 50 ms -次击键。 磁盘通常需要大约 10 ms 来启动一次磁盘传送。在 
宏观时间尺度上，处理器不停地在汗多任务之间切换，一次分配给每个任务大约5〜 20 ms 。 以这样 
的速度，用户感觉上住务是在同时进行的，因为人不能够察觉短于大约 100 ms 的时间段。在这段时 
间内，处理器可以执 tr 几百万条指令。 

图 9J 在对 数尺度上画出 r 各种事件类型的持续时间，微观事件的持续时间以 m 为 单位， （大) 
宏观事什的持续时间以 ms 为筚位。〔小)宏观事件是由 OS 例程来管理的要大约5 000〜200000 
个时钟周期。这些时间范围是以 p 来测景的（微秒，这 Mji 是希腊字符 “mu”)。 听 上士好 像是很 
多的计算，但是它比处理（大）宏观事件要快很多，以至于这些例程只给处理器增 加了少 量的负 


载 


时 间尺度 （ 1GHz 的机器 ) 


微观的 


t 細 


轳数加法 


磁盘 A 问 


fp m 


屏幕刷新 


击键中断 
处理柠序 


FP 除法 


m 


1.E- 


1.E-06 


T.E-03 


1.E+00 


时间 < seconds ) 


图 9.1 计算机系统事件的时间尺度 

处理器硬杵在微观时问尺度上工作 t 在这个级別彳•事 件的持 续时间都是几 n s 1级的。 OS 必须以宏观时间尺 S 来处理持续时 
间为儿 T^t 级」•的事件。 


练习題 9.1 

当用户用 EMACS 这样的实时编辑器来编辑文件时，每次击键都产生一个中断信号„然后，操 
作系统必须调度编辑器进程，对这次击键采驭适当的行动 d 假设我们有一个时钟为 I GHz 的系统， 
而我们有 ] 00个用户在运行 EMACS ， 他们以每分钟100个单词的速度输入。假设每个单词平均有6 
个字符。还假设处理击健的 OS 例程平均需要100 000个时钟周期/键，对所有这些击键的处理占用 
了处理器负栽的百分之多少？ 

注意，这是对徤盘使用造成的$栽非常悲观的分析。很难想像现实生法中有这么多输入如此快 


的用户 


I原文并汝有区分 （大） 宏观级别和 （ 小）宏观级别，这样理解本段将闲难 D ——译者 
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9.1.1 进程调度和计时器中断 

外部事件，例如占键、磁盘操作和网络话动，会产生中断信号，这些中断信号使得換作系统调 
度程序得以运打， 町能 述会切换到另一个进稃，即使没有这样的事件，我们也希望处理器从一个进 
稈切换到 -> i - 个，这样用户看1:去就好像处理器在间时执行昨多程序一样。出于这个原因， 计算机 
有 个 外部计时器.它周期性地向处理器发送中断信号。这些中断信号之间的时间被称为间隔时间 
(interval time ), 3计时器中断发 生时， 操作系统调度程序吋以选择要么继续当前正在执行的进程， 

耍么 M 换到另一个进程 。 这个间隔必须设置得足够短，以保证处理器在任务间切换得足够频繁，能 
够提时执行多个任务的假象，另方面，从个进程切换到另一个进程 I 要儿千个时钟周期 
来保#当前进程的状态，并旰力卜_个进程准备好状态，因此将间隔设置得太短会导致性能很差。 
根据处理器以及处理器的配置 情况， 典型的计时器间隔范围是 

旁注： 计算机性能的伸缩 

将 Digital Equipment Corporation 的 VAX - 11/780 计算机的性能比喻成一个现代处理器，这是很 
有意思的。这种机器是在 1977 年出现的，每台售价大约是 200000 美元，它成为第一种枝广泛使用 
的运行 Unix 择 作系统 的机艮 注意， 这种机器上的计时器同 隔典 型地被设里为 10 ms , 即使它的 CPU 
比现代机器的 CPU 慢了 1 000 倍，虽然微观时间尺度交化得飞快，但是宏观时间尺度并没有故变太 


多, 


图9+2 (a) 从系统的角度说明/在 计时器 间隔为 10ms 的系统上-个假设的 150ms 的操作。 /l: 
这段时间4冇两个活动的进程： A 和 B。 处理器交锊地执行进程 A 的部分 T 然后冉执 frB 的一部 
分，依此类推。2处理器执行这些进稃时，它要么运行在用户模式，执打应用程序的指令，要么运 
fr/l: 内核糢式，代发杩序执行操作系统函数，例如处理缺页、输入或者输出。回想一下，内核操作 
被认为足每个普通进程的一部分，而不是 个 独立的进秤。每次有外部事件或者计时器中断时，都 
会调用操作系统调度稈序。在图中，计时器中断的发生是由短线标记来表示的 d 这意味着在每个短 
线标记处都脊一些内核活动，佝是为了简便，在图中我们没有显示。 


( a ) 条统角度 


| □用户 

] 内核 


( b ) 岭用 A 的角度 


=] 活动的 
□不活动的 


图 9.2 系统和应用对时间的看法 

系统从-个进 ® 切换到 M - 个进这些进程运彳了杵 用户模 式或者内核梢式，与应闬的进程在用户模式中执打时，应 Hjd 能 
完成的计算 r 

与调度秤汴从进程 A 切换到进程 B 时，它必须进入内核模式保存进程 A 的状态（仍被认为是 

进程 A 的一部分)，然后恢复史程 B 的状态（被认为是进程 B 的-部分 L 因此，在每次从一个进 

程过 渡到另 .个进程期间，是有内核活动的。在其他时候，也有除/切换进程之外的内核活动，例 
如4通过使用-个巳鲟在存储器 （ memory ) 屮的页来满足缺页时。 
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9.1.2 从应用程序的角度看时间 

从应用程序的角度出发，可以把时间流看成两种时间段的交替，一种时间段里程序是活动的（在 
执行它的指令)，另一种时间段电程序是不活动的（等待被操作系统 调度夂 当应用的进程运行在用 
户模式中时，应用才能执厅有用的计算。图 9.2( b ) 说明了程序 A 是如何看待时间流的。在深灰色 
区域内应用是活动的< 此时进程 A 正在用户模式中执行；否则它是不活动的。 

作为一种量化在活动和不活动时间段之间交替的方法，我们写了一个程序它不断地监视它 
自己，确定什么时候有长的不活动时间，然后它产生一个 trace (跟踪文件），显示出在活动和不活 
动时间段之间的交替 a 本章后面会描述这个程序的细节。图 9.3 展示了一个这样的 trace i 例，是在 
一个时钟周期大约为550 MHz 的 Limu 机器七运行时产生的。每个时间段都标记为活动的 （“ A ”） 
或者不活动的 （“ n 。 时间段被编号为0〜9,用 来标识 t 对于每个时间段，铪出了开始时间（相对 

于 trace 的开始）和持续时长。以时钟周期和 ms 来表示时间。这个 trace 一共显示了 20个时间段 1 10 
个活动的，10个不活动的)，总共的持续时间是66,9 ms , 在这个例子中，不活动时间段相当短，最 
长的是 ( X 50 m % 人多数不活动时间段是由计时器中断造成的。被监视的总时间中，大约 95 J % 的时 
间这个进程都是活动的。图 9.4 展示了图 9.3 所不的 trace 的图形化表示，注意，灰色三角形指明了 
活动时间段之间边界的规則间隔。这些边界是由计时器中断造成的 D 

持续时间 3726508 
持续时间 
持续时间 
持续时间 
持续时间 
持续时间 
持续时间 
持续时间 
持续时间 
持续时间 
持 续时同 
持续时间 
持续时闻 
持续时间 
持续时阅 
持续时间 
持续时两 
持续时间 
持续时间 
持续时间 

9.3 显示活动时间段的示例 trace 

从应用程序的角度宋看，处 理器操 怍是在枵序活 动执行 〔以斜体表示的）和不活动之间交替进行的。这个 trace 展示了一个拜 
序在 66*9 ms 时阆段内两种时间段的日志记录有 95,1 ft 的时阆枵序是活动的> 

图 9.5 展示了一个 trace 的一部分，此时还有另一个活动进程在共享处理器。图 9.6 中展示了这 
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18 时间 31085679 (56.53 ms) 
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19 时间 36557620 (66,48 ms) 
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2 卽下文提到的跟踪进程。——译者 
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个 trace 的图形化表小。注意，两幅图中的叫间尺度不样，因力我们显不的这部分的 ce 趄从跟踪 
进程的 349.40 ms 处开始的。么这个例子中，我们可以看到 T 在处理某些汁时器中断时 T OS 也会决 
定从一个进程切换上下文到另一个进程 D 因此，每个进枵只会在 人约 50%的时间 m 是活动的。 


活动时间段，负載 = i 


■秘动的 
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9.4 图 9.3 中 trace 的图形化表示 


it 时器中断是由灰色三角形來栺小的 


持续时间 5224961 (9.532449 ms) 
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{399,33 ms) t 
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(423.^8 ms) , 

(423.50 ms), 

(428.81 

图 15 显示有负载机器上的活动时间段的示例 trace 

1还有 K 他活动进埕存亦时，跟踪进程会较 t ： 时话动。这个展示丫个程序在总 K 为 a^.Kms K 时 f 日1没内 
跟踪进 R 在53.0%的时间内都是活动的 u 

练习题 9.2 

这个问题是关于图 9.5 听示 trace 的一部分的解释的 & 

A . 在这部分 trace 中，什么时候发生了讨时器中断？（其中有些时间点能够直接从 trace 中提取 
出来， 而有些必须用插值法估计。） 

B . 这些计时器中断中，哪些是在跟踪进程活动时发生的，哪些是在它不活动时发生的？ 

C . 为什么最长的不活动时间段比最长的活动时间段要长呢？ 


(O.C 丄匕 13>7 肥 ) 
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7 U 96 (0.012946 ma } 

2859227 (5.216390 ms) 

) , 持续时间571 8793 H 0.433399 ms ) 
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D . 根据这个 trace 中活动和不活动时间段的模式，你预计在更长的时间范围内，跟踪进程处于 
不活动状态的时间百分比会是多少？ 


活动时间段 1 负戴 =2 


| ~ [活 动的 
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9.6 


9.5 中 trace 的活动时间段的图形化表示 


i-l! 




计时器屮断足由灰色=角形来指示的。 


9.2 通过间隔计数 ( intervalcounting ) 来测量时间 

操作系统也用汁时器 （ timer ) 来记录每个进程使用的累计时间，这种信息提供的是对枵序执行 
时间不那么准确的测量值。图 9.7 提供了如何对图 9.2 中所示的系统操作示例进吁这种£账 
( acccniiiting ) 的阁形化说明。在这里的 U 沦中，我们称只有一个进程在执行 的一段 时间为时间段 (time 
segment ) \ 

( a ) 间隔汁时 


A 110u[4Gs 
B 70u ^ 30s 


Ptu ^ Au As &l bs Bu E “ Eu fiu As P\u Aj Au ?u Ai] 3? Bu Bi, Bb All Au Av As Rs 


( b ) 实时间 


A 120 Ou + 33,3s 
B 73-3u - 23 3s 


0 tO 况 30 4D 50 60 70 白 0 知 100 UO 1J0 130 140 1&0 ISC 


9-7 通过间隔计数 (interval counting ) 来对进程计时 

计时器间为 10 ms 时，每] 0 m S 时间段被分 K 给一个 进稃，作为它的用户时间 < u ) 或者系统时间 （ S ) 的-部分。 S # 的 B 
账 ( accounting ) 提供的 K 是程序执行 Bv 间的」个粗絡的测里值， 

9.2.1 操作 

操作系统维护着每个进程使用的用户时间量和系统时间量的计数值，3计时器中断发屮时，操 
作系统会确定哪个进程是活动的，并且对那 t 进程的一个计数值增加计时器间隔时间。如果系统是 
在内核槙式中执行的，那么就增加系统时间，否则就增加用户时间。图9.7 ( a ) 所承的例子表明/ 
对两个进稈的这种记账 Ucc < MMiti n g ) 。短线标记表明发生了计时器中断。每个计时器巾断都由被增 
加的计数值来标识：或者是进程 A 的用户或系统时间 An 或 As ， 或者是进程 B 的用广或系统时间 


：1 


通常称为时 间片， ——译者 
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Bu 或 Bs. 每个短线标记是根据紧挨着它的左边的活动来标识的。最后的 ki 账表明进程 A 总共使用 
广 150ms: 110ms 的用户时间和 40ms 的系统时间；进程 B 总共使用 MOOms; 70咖的甩户时间和 
30ms 的系统时间 t 


9.2.2 读进程的计时器 

光从 UniHhdl 执行一个命令时， ffl 户可以在命令前加上单诃 “time”， 来测量命令的执行时间。 
这个命令使用的值是用上面插述的记账方法 it 算出来的。例如 f 为了计算命令行参数为 - n 17的程 
序 prag 的执行时间，用户只要简爷地输入命令： 


time prog -n 17 


jmx> 


在程序执行完毕之后， shell 会打印出总结运行时间数据的一行，就像卜囟的 这样： 

2.2 ： li)u 0 .260y 0 ： 06. b2 38.1% 0 十 Ok O + Oio 80pf+ 0w 

这行中显小的头个数夂是时间。前两个是用户和系统时间的秒数。注意这两个数字的小数 
点后第都是0。计时器间隔为10 rm, 所有的计时都是百分之一秒的倍数。第-:个数字是总抖经 
过的时间，以分钟和秒的形式表示。我们注意到系统和用户时间加起来是 2.49s, 比总共经过的时间 
6.52? 的一半还要少，这表明处理器同时还在执行其他的进程。百分比表明用户和系统时间的和占经 
过时间的比例，例如 f (2.23 +0.26V6.52 = 0.38U 剩卜的统计数据总结/贞面调度和 I/O 行为。 

程序员还可以通过调用库函数 times 来读进程的 i 十时器，这个函数的卢明 如卜： 


#include <Kys/times.h> 


sLr^ct tms { 

clock L tms utime ； 

clQck„t: tms_stimer 

dock_f ： tias_cutime ; 
clock L fns cstime ： 


/* user time 
/* system time */ 

time of reaped children + / 

/* system time of reaped children + / 


/ 


user 


clock_t times(struct tms *bu £)； 


返回： 自系统启动以来经过的时钟滴答数 u 
^^^^^_ 

这些时间测#值是以时 钟滴答 (clock tick) 为单位来表示的，定义的常数 CLK_TCK 指明每秒 
的时钟滴答数。数据类型 clock_t 通常定义为长整型 D 指明子时间的字段给出的是己绰终止了并且被 
3收了的子进稈使用的累积时 M。 因此 ， times 不能 ffl 来监视任何正在进行的了进程所使用的时间。 
怍为返冋值， times 返回的是从系统启动开始已经经过的时钟淌答总数 D 因此我们珂以通过两次调用 

再计算两个返回值的差，来计算，个程序执行中两个不同点之间的总时间（以时钟滴答为单 


times 


fv ：). 


ANSI C 标准还定义了一个 clock 阑数，它测量当前进程使用的总时间: 


# include <tirrie , h> 


clock_t clock(void); 


返 ® ; 进程使用的总时间 
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虽然它的返回值和函数 times 使用的一样，都声明为 clock」 类型 f 但是通常这两个函数表达时 
间的单位是不一样的。荽将 clock 函数报告的时间变成秒数，必须把它除以定义好的常数 CLOCKS, 
PER^SEC ,这个常数值不一定要和常数 CLK_TCK 相同 D 

9.2.3 进程计时器的准确性 

如图 9.7 所小的 示例，这个计时机制只是近似的。图 9.7( b ) 展示了两个进程实际使用的时间。 
进程 A 总共执行了 l 53 + 3 iriSt 其中用户模式 120,0 ms , 内核模式 33.3 ms 。 进程 B 总共执行了 96.7 ms , 

其中用户模式 73.3 ms f 内核模式 23.3 ms 。 采用间隔计数的记账 （ intern ] accounting ) 方法片不会比 
计时器间隔 （ timerinterval ) 方法更好地解决时间问题^ 


练习題 9.3 

操作系统会怎样报告下面所示执行序列的用户和系统时间？假设计时器间隔为10 


ms 


A 


8 


练习 題94 

在一个计时器间隔为 lOtns 的系统上，进程 A 的某一个时间段被记录为需要70 
命用户时间.这个片段使用的最大和最小实际时间是多少？ 

练习題9,5 

对于图43中所示的 trace, 问隔计数器 （counter) 记录的系统和用户时间会是多少？这个时间 
与进程处于活动状态的实际时间之比为多少9 

对子运行时 N 足够长的程序（至少要儿秒钟)，这种方法中的不准确性就能相互弥补了。，些时 
间段的执打时间被低佔了，而另一些被髙估了。在许多时间段1 -平均，期望的误差就接近于0 
不过，从理论的角度来看，对于这种测貴值与真实运行时间的差距有多人，并没有确切的界限。 

为了测试这种计时方法的准确性，我们运行了一系列实验，比较相同样本计算卜操作系统所测 
量的和如果系统资源只用来执行这个计算时我们估计的时间尺。一般而言，I与 Tp 不相同有 

以卜几个 喼因： 

1. 间隔计数方法本身固有的不准确性可以导致 T m $T e 小或者大。 

2. 计时器中断导致的内核活动占用了总 CPU 周期的4%〜5%，但是对这些周期的计数不是很 
适当，正如从图 9.4 所冶的 trace 中可以着到的那样，这个活动在下一次计时器由断之前结束，因此 

没有显式地被算进去，相反，它只简单地减少了下一个时间间隔内执行进程的可用周期数相对于 

这就増加了 

3. 当处理器从一个任务切换到另一个任务时，在一个短暂的时间内，高速缓存叮能会执行效率 
很差,直到新任务的指令和数据被加载到高速缓存中.因此，3处理器在我们的稈序勻其他话动之 
间切换时，它的执行效率没有连续执行我们程序时的效率高 & 相对于这个因素会增加 

在本章后面，我们将 U 论如何确定我们禾例计算的又值。 

® 9.8 给出了在两种不同的负载条件下运行这个试验的结果。这些曲线图展承了我们的误差率 
的测量值，它定义为 T e 的一个困数 (H 几的值 & 当 I估计的低于 T。 时，这个误差测量值为负， 
当1^估计的高于 T t 时，它为正 □ 两组数据显示的是在两种不同负载条件下测童的值。标号为“负 
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ft 战 1 
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9.3 周期计数器 

为了给计时测量提供更高的精确度，许多处理器还包含一个运行在时钟周期级的计时器。这个 


預期的 CPU 时间 （ ms) 


9.8 测置间隔计数 (interval counting ) 的准确性 

4测 ftfS 动短十人约】 OOmj ： (】0 个计吋器间隔）时，误 e 会不坷接受得裔 K 此外， Xife 是载 t 常耔 （ ft 战 I) 的机 
器 h 还是在负戟各常 e 的机器卜 ( mn - K 误 e 芊通常都小 n ()% 3 


低于人约 looms (10 个汁时器间隔)，屮于计时方法很粗糙，测量完今小准确.间隔计数 H 对测 
量相对较长的计算 100000000个时钟周期成更多 有用。除此之外， 我们还肴到误 差通常许 
【).0 〜 0.〗之间 T 也就是，最多冇10%的误差。两种小同的负载 m 况之间没冇明 a 的 ix : 别。另外还要 
注 J &, 误差冇正 偏差： 对于所有1>100 ms 的测童值，平均误差为 1.04, 这培因为计时器屮断 A 
用了人约4%的 CPU 时间。 

这些实验表明进程计时器只对获得程序性能的近似值有用。它们的粒度太袓，不能用于持续时 
间小于 100 ms 的测暈。在这台机器 h 这些进程计时器有系统偏差，过高地估计计算时间，平均大 
约4%。这种计时机制的土要优点是它的准确忡不是出常依赖于系统负载。 


载 r 的那组数据 w 示的是执行小例计算的进程是惟•活动进稈时的情况。标号为“负载 ir 的那 
组数 据昆示 的是另外还有10个进程也在试图进打同样的计算时的怜况□后者代表 的是一 个负载非常 
£的情况，系统对市键和其他服务请求的响应明 I 慢了。注意，这幅图中显小的误左值&围很人。 
一般而肓，只有在真实偯±10%■范围内的测1值才是可接受的，丙此我们 J -、 珩望误差变化范闹为人 

约-0」〜 +0 .U 
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计时器是-个特殊的寄存器，每个时钟周期它都会加 h 可以用特殊的机器指令来读这个计数器的 
值 & 不是所有的处理器都有这样的计数器的，而 J 1 有这样计数器的处理器在实现细节上也各不相同。 
因此，程 序员无 法用统-的、与平台无关的接口使用这些计数器。另…艿面，只用少贵的? I :编代码* 
通常很容易就为某个特定的机器创建-个程序接口。 


9,3.1 IA 32 周期计数器 

到「 I 前为 il :_ 我们己经报告的所有 H 时值 都是用 IA 32 周期计数器 (cycle counter ) 测景出来的。 
在 IA 32 体系结构中，周期计数器是勺 “ P 6” 微体系结构 CPentiumPro 及其后续产品）一起提出宋 
的。周期讣数器是 个 64位尤符号数。对？个运行时钟为 1 GHz 的处理器，只有在每 L 8 XI 0 10 
秒，或者每570年，这个计数器才会从广-1绕回到⑴另一方面，如果我们只考虑这个计数器的 
低32位，把它看成一个无符号整数，那么这个值会大约每4,3秒就绕问来。闵此，我们就明0了为 
什么 IA 32 的 gi 十者会决定实现一个64位的计 数器。 

IA 32 计数器适用 rdtsc (read time stamp counter ， 读时间戳计数器）指令来访问的。这条指令没 
W 参数。它将寄冇器 ％ edx 设置为 i 彳数器的卨32位，而寄存器％^狀设置为低32位。为了提 供-个 
C 程序接口，我们想把这个指令包装到一个过稈中： 


void d ： :cess_counter lunsigned + hi P unsigned 


这个过程应该将位置 hi 设 t 成 i 十数器的高 32 位 1 将 lo 设置成低 32 位。使用 3+15 爷中描述的 

GCC 的嵌 入 0 .编特性 * 实现 accessjxmmer 很简单。其代码如图 9.9 所示。 


code/perf/clock.c 


f * Initialize the cycle counter 

SLatic unsigned cyc_hi = 0 ; 
static unsigned cyc_lo = 0; 


5 


Set *hi and *lo to the high and lo^ order bits of the cycle counter. 
Impletnentatjari requires assembly code to use the rdtsc instruction. */ 

void access_counter(unsigned ^hi, unsigned ^lo) 


6 


8 


10 


asm ( n rdtsc ； movl %%ecx f %0 ; novL %%ea.x^ %1 ri Readcyd^ counter */ 

t*lof 




(*hi) 

: No input*/ 

: n %edx' ) 


产 and move results to ^1 
/* the two outputs V 


-r 


; 


12 


13 


14 


15 


/* Record the current value of the cycle counter, 

void start 一 counLer() 




17 




19 


acceBS_counter( kcyc 」 ni f &cyc_la) 


20 


21 
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/* Return the number of cycles since the last call to start _ counter . */ 

double get_countGr() 


2 


23 


25 


unsigned ncyc_hi f ncyc_lo; 
unsigncd hi, la, borrow ； 
double result; 


2fi 


/* Get cycle counter */ 

dccesb_counter(&ncyc_hi, &ncyc_lo); 


2 ? 


31 


Do double precision subtraction */ 

ricyc_lo - cyc_lo; 

ncyc_lo; 
cyc_ni 

(double) hi 

iE (result < 3) { 

fpriritE (stderr, "Error: counter returns neg value: %*0f \ n p, , result); 


32 




]o 




borrow 


lo 




hi 


ncyc_hi 


borrow; 


36 


result 


(1 


30) 


4 


lo 


* 


« 


37 


■ i 8 


39 


40 


return result ； 


4 ： 


code/perf/ctocL c 


图 9.9 实现 IA 32 周期计数器的程序接口的代码 


消要 ■；[: 编代码宋使屮 it 数器读指令 


基于这个例程，现在我们能够实现两个函数，可以用它们来测量仟意两个时间点之间经过的时 
钟同期总数。 


并 i rielude 11 clock.h 


v (； i d 


0 ; 


counzer 


dcuble get_ 


i ) 


counter 


返回； 自最后一次调用启动计数器所经过的周期教。 

我们返回的时间是 double 类型的，以避免只使用32位整数吋能引起的溢出问题。这网 个例程 
的代 R 也显小 / h 图 9.9 中。它是逹立在我们对执行双精度减法和将结果转换成 douh ] e ■类劭的尤符号 
W 党的理解的基础卜.的。 


9.4 用周期计数器来测量程序执行时间 


周期讣数器 (cycle counter ) 提供了一个 1 h 常精确的工具，坷以测量一个程序执打中两个小同点 
之间绰过的时间「不过，典型地，我们对测量执行某段特殊代码所需要的时间感兴趣。我们的周期 
计数器例程计算调用 S tart _ C ™ n t er 和调用 geurcmnter 之间总的周期数，这些例程不 E 录哪个进程使 
用这些周期，或者处理器是在内核还是在用户模式屮运行的。在使用这样的测量设备来确定执行时 
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间时，我们必须很 小心。 我们研究一些其中的困难之处，并看看如何克服它们。 

作为一个使用周期计数器的代码示例，图 910 中的例程提供了 -个确定处理器时钟频率的方 
法。在几个系统上，以参数 sleeptime 等于 1 来测量这个 函数. 测童值表明它报告的时钟频率在该处 
理器评测性能的 1.0% 范围之内 。 这个示例清楚地表明我们的例程测量的是经过的时间，而不是某个 
进程使用的时间。 3 我们的程序调用 sleep 时，操作系统不会继续这个进程，直到 Is 的睡眠时间到 
达。这期间经过的周期是被其他进程执行的 & 


code/perf/clocL c 


y + Estimate the clock rate by measuring the cycles that elapse + / 
I 丸 while sleeping for sleeptime seconds */ 

double itihz ； int verbose, int sleeptime) 


1 


2 


3 


4 


double rate ； 


start_counter<); 

&leep{sleeptime); 

getjcounteT () / (le6*sleeptime )； 


rate 
if (verbose) 

printf("Processor clock rate %.lf MHz\n H , rate )； 


10 


11 


■■ 


return rate 


code/perf/clock c' 


9.10 函数 mhr 确定一个处理器的时钟频率 


9 A 1 上下文切换的影响 

测量某个过程 P 的运行时间的一种简单方法就是用周期计数器来对 P 的一 次执行进行计时，就 
像在下列代码中 一样： 


1 


double time_P() 


start_counter ()； 

P ()； 

return get: 一 counter () 


如果在两次调用计数器例程之间，有另外某个进程执行了，那么这段代码就很容易产生令人误 
解的结果。如果机器负载很重，或者如果 P 的运行时间特别长，这就特别成问题。图 9.11 说明了这 

一现象。图中展示了反复测量一个程序的结果，这个程序计算的是一个 13] 072 个整数的数组的和。 
时间被转换成了以 ms 为黾位。注意总的运行时间是 36 

量，每组对同一个过程测量 18 次。标号为 “ 负载 r 的那组数据说明的是在负载很轻的机器上的运 
行时间，此时机器上只有 - 个进程在运行。所有的测量值都在最小运行时阆的 3+4% 范围之内。标号 


比计时器间隔值大 4 。我们进行两组测 


ms * 


4 操怍系 统根据计时器间隔的值来执行进程调度。——译者 


a 9- n 在不同的负载情况下，对长持续时间的过程的测置 

亦 个负栽很耔的电统 匕 各个 tr 本的结朿是-•致的，但足在 一个负 载很重的系统[.，斤多测 i 值都比具实的汍行时间佔 ii - 
撼，」 

9-4.2 高速缓存和其他因素的影响 

岛速缓 冇和分女预测造成的计时变化比卜.卜文切换造成的要小-些。作为一个例 f ， 图9+12展 
小/ 一 m 类似 I 图9.]1中的测量值，区别在十数组要小4倍，得到的执打时间人约是 8 n ^ 这些执 

行时间 比讣时 器间娲要短，閃此执行不太町能受上 F 文切换的影响。我们看到测量值有变化.但是 
这些变化的程度郁没有卜.卜文切换造成的变化那么大， 

图 9.12 所小的变化卞要是由卨速缓存造成的。执行一个代码块的旳间可以1|:常依赖于许汗始执 
行时，这个代码使用的数据和指令是否在数据和指令高速缓冇中。 

作力-个示例，我们写 f 两个样的程序 procA 和 procB ， 输入为一个类型为 double ，指针, 

并「1.将从这个指计开始的8个迮续的元素设置为 0.0 t 我们测量以_ : 个不同 的指针 bl 、 b 2 和 b 3 对 

这个过程进行调用的时钟周期数。调用序列和得到的测鼂值如图 9.13 所小 a 叩使这些调用执行的是 

完全相 叼的 i 十算， it 时的变化也几乎有4倍，因为这段代码屮没有条件分支，所以我们4以断定送 
些变化是受高速缓#所影响 t 


5 焯文是 time interval ， [fc _ 我们 iK'Aj 是 timer interval u —— tf 者 


刺置 示例： 大教组 


为“负载4” 的那组数据表明的是当另外还有二:个频繁使用 CPU 和存储器系统的进程在运行时的运 
行时间。头七个样本的时间迮负载1样本屮最快的时间的2%范闱之内，但是其他的时间比4+3倍还 


多 3 


如这个示例说明的那杆 T 上下文切换导致执行时间差异极大。如果一个进稈被交换出去' 
那么它就会落后卩 } 万条指令。显然，我们设计的任何测量程序执行时间的方法都必领避免这样大的 


误差。 
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样本 


9. J 2 在不同的负载情况下.对短持续时间的过程的测置 

变化程度没有中的变化那么大，但 ft 还是大得不可接受， 


1 


9.13 相同的过程在相同的数据集上的测置序列 

这些捆 S 值中的变化主要是由指令和数据髙速缓存中不同的 a 命中情況造成的， 


练习鼉 S +6 

表示如果没有高速缓存不命中，调用 procA 或者 procB 所需的周期数，对于每次计算 ，由于 
高速缓存不命中浪费的周期可以分摊到每个需要取出表放到高速缓存中的数据上： 


c 


• 实现测量代码的指令 （ 例如 start _ counter , get _ counter 等等）。设这些指令所需周期数为 
• 实现被测量过程的指令 ( procA 或者 procB X 设这些指令所需周期数为 p . 

• 被更新的数据位置（由 bl 、 b 2 或 W 指示 L 设这些指令所需周期 数为山 
根据图9,13所示的测量值，给出 


m. 


p 和 d 的估计值^> 


C > IT1 1 


给出这些测量所示的变化，人们很自然地会 问：“ 一 个是对的呢？ ”不幸地是，对这个问题没 
有简单的答案。这取决于我们的代码实际使用的情况，以及我们能够荻得对靠测童值的情况。一个 
问题是测量值每次运打都不相同。图 9.13 所承的测量表 M 示的 只是- 次测量的数据.在反复的测量 
中，我们看到测量 I 的范围为317 〜 606,而测量5的范围为301 〜 326。另外，其他四次测量每次运 
行的变化只有几个周期。 

显然，测 tl 估计过高，因为它包括了将测量代码和数据结构加载到髙速缓存中的幵销。进- 
步来说，它的变化程度最容易大。测量5包括了 将!) rocB 加载到高速缓存中的开销。它的变化程度 


399 


132 


134 


00 


317 


procA(bl) 

procA(ta2) 

procA ； b3) 
procA[bl) 

procBibl) 
procEib2) 


n 期教 
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測像 示例：小数组 
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也容易比较大.在大多数实际应用中 t 冋样的代码会被反复执行。因此，将代码加载到指令高速缓 

存中的时间相对而言不太重要。我们的示例测量有点人为的痕迹，因为指令高速缓存不命中的影响 
比实呩应用中的要大一些 D 

为了测黾过枰 P 所需的时间，在过程 P 中指令高速缓存不命中的澎响 ri 经减小到最低了，我们 
可以执行下列 代码： 


double time„P_warm() 


P () ; /* Warm up the cache *1 

start_counter(); 

po ； 

return get_counter ()； 


乙 


在幵始测暈之前执行一次 p， 会将 p 所用的代码放入到指令髙速缓存屮。 

这段代码也使数据高速缓存不命中的影响降低到最小，因为第一次执行 p 也将 p 访问的数据放 
入到数据离速缓存中□对 r 过稈 procA 和 procB T time_P_warm 的测量会得到100个周期 。 如果我 
们预想代码会重复地访问同样的数据，那么这就是测量的正确条件 D 不过对于一些应用，我们更可 

能是每次执行都 IA 问新的数据。例妇， 一 个过程将数据从存储器的一个区域拷贝到另一个 K 域，很 
吋能调用时没冇块被缓存 。 mi time P 


倾向 T 低估这 样-个 程序的执行时间。对于 procA 或 
者 P rocB， 它会得到100个周期，而不足当过程被应用到未缓存的数据上时测出的132〜134个周期 D 

为了使 i 十时代码测量一个初始时没有数据被缓存了的过程，我们可以在执行实际的测量之前， 

清空岛速缓存中所有冇用的数据。 h 面的过稃就是为一个卨速缓存大小不大于 5I2KB 的系统完成这 
一功能的： 


W 




code/perf/time_j>x 


/* Number of bytes in the largest cache to be cleared 

#define CBYTES (1«19) 

#define CTNTS (CBYTES/^izeof(int)) 


2 


A large array to bring into cache V 

stat-lc int dummy [ClNTS]; 
volatile inz sink; 


5 


7 


^ Evict the existing blocks from the data caches */ 

void clear_cache() 


10 


11 


12 


: uL i ; 


13 


0; 


14 


15 


for (i - 0; i < CINTS; i + +) 

dumny[i] = 3; 
for (i - 0; 


16 


17 


CINTS ； i+ 十 ) 


i < 
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18 


sxuti 十 = dummy [ i ] ; 

sink = sum 


19 


20 


code/petf/time jkc 


这个过程只是在一个非常大的数组 dummy 上执行一个计算，有效地从髙速缓存中清除出所有 
其他的东西，这个代码有几个特殊的性质，用来避免常见的错误。它将值存储到 dummy 中，并且 
把它们读出来，这样无论高速缓存分 K 策略是怎样的，都会缓存这个数组。这段代码用数组的值执 
行一个计算，并将结果存储到一个全局整数中（声明为 volatile 就表明对这个变置的任何更新都必 
须被执行)，这样使得聪明的优化编译器不会优化掉这部分代码。 

使用这个过程，我们可以获得在 P 的指令都被缓存而数据没有被缓存的情况下 P 的一个测鼋 


值 


1 double time_P_cold() 


2 


p () ； /* Warm up instruction cache */ 

clear_cache () ; /* Clear data cache + / 
start_counter(]; 

F ()； 

return get_coimter (); 


当然，这个方法也有缺点。在一个有统一 L2 高速缓存的机器上，过程 clcar^cache 会导致 P 的 
所有指令都被清除，幸运的是， L1 指令高速缓存中的指令还会 保存。 过程 dear_cache 还会从髙速 
缓存中淸除出大部分运行时栈，导致过高地估计了在更加真实的条件中 P 所需要的时间。 

正如这里的讨论说明的那样 t 髙速缓存的影响为性能测量增加了特殊的困难。程序员几乎不能 
控制什么指令和数据会被加载到髙速缓存中，而当必须加载新值时又该清除什么指令和数据，最好 
的情况下，我们能够设置好测量条件，通过一些清空和加载高速缓存的 组合， 使得测量条件与我们 
应用期望的条件梠匹配。 

正如前面提到过的，分支预测逻辑也会影响程序性能，因为当分支方向和目的都预测正确时， 
分支指令引起的时间处罚要小得多。这个逻辑是根据己经执行过的分支指令的历史记录来进行预测 
的。当系统从一个进程切换到另一个时，开始时新进程中的分支预测是根据前一个进程中执行的分 
支指令来进行的。不过，实际上，这些影响对程序的每次执行只会造成很小的性能变化 t 预测主要 
依赖于最近的分支，因此一个进程对另一个进程的影响非常小。 

9.4.3 K 次最优测最方法 

虽然我们使用周期计时器测量容易受由上下文切换、髙速缓存操作和分支预测引起的误差的影 
响，但是一个重要的特性就是这些误差总是导致过高地估计真实的执行时间。处理器做的事情都不 
会人为地加速一个程序的执行。即使上下文切换和其他影响会引起测量 值不一 致，我们仍然可以利 
用这个属性来获得执行时间可 II 的測量值。 

假设我们重复地执行一个过程，用 tinie_P_warni 或者 timej^cold 来测量周期数，我们记录 K 
(例如 3) 次最快的时间。如果我们发现这种测量的误差 e 很小〔如0.1%),那么用测置的最快值 
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来表小过拜.的真劣执行时间就是合理的。作为•个示例，假设对于图 9」1 所小的那些次测量，我们 
设置误差为1.0%。那么负载1的最快的六个测1值在这个误差范围之内，而负载4最快的<个测量 
值在这个误差范围之内。因此我扪可以得出结讼说运行时间分别为 35.98 ms 和 35.89 
4的情况，我们还对以肴到测量值集中在 125.3 ms 附近，有六个大约为 155.8 ms, 但是我们安全地 

丟弃了这些过高的佔计值。 

我们称这种方法为 “K 次最优 ( K - Best ) 方法' 它要求设 W 二个 参数： 

K： 我们要求在某个接近最決值范围内的测童值数量。 

这些测量必须有多大程度的接近。也就是，如果测量值按照升序标号为 
那么我们要求 (1 +£)V] > V k a 

M： 在我们中止之前，测量值的最人数 t。 

我们的实观进行了 -系列尝试，并且按照排序的方式维护着一个 K 个最快时 W 的数组。对十每 
个新的测暈值，它会检査这个值是否比当前数组位置 K 中的值更快。如東是，它会替换数组元素 L 
然后执/仃一系列相邻数组位置之间的交换，将这个值移到数组中适当的位1。继续这个过程 ，岜到 
误差标 淮满 足，此时我们称测暈值己经“收敛广\或者我们超过了界限 M , 此时我们称测量值不 
能收敛。 


对亍负载 


ms 


Vm v 2? 


Vli 


试验评价 

我们进行了 •系列试验来测 tK 次最优测量方法的准确性 t 卜- 面是•■些我们想要解决的问 


题; 


K 这个方法产生的是准确的测量值吗？ 

2. 什么时候测量值会收敛，收敛得有多快呢？ 

3. 这个方法能够确定它自己的测量值的准确性吗？ 

设汁这样的试验的一个挑战是要知道我们正在试图测量的程序的实际运行时间 D 只有这样，我 
们才能确定我们测量的准 确性。 我们知道，只要我们正在测量的计算不被中断，我们的周期计时器 
就能够给出准确的结果。对于比计数器间隔 6 短很多的计算，运行在负载很轻的机器上时，被中断 
的可能性很小，我们利用这些属性来获得对真实运行时间的财靠估计值。 

根据我们的量 P 呩，我们使用了一个过稈，它反复 地往个 2048个整数的数组中写值，然后 
再读出来，类似于 cleaicache 的代码。通过设置重复的次数 r , 我们吋以创建需要一定时间的计算。 

肢 r 我们设这个过程期望的运行时间为 r 的一个函数 f 用 T ( r ) 来表示， r 从1变到10,对运行时 

间计时（得到的时间为0训〜 0.9 imi ， 执行最小二乘方拟合，找到形如 TW = nir + b 的公式，通过 

使用小的 r 值，对每个 r 的值执行100次测量，井且迮一个负载很轻的系统1:运行测晕，我们能够 

获得个巾常准确的 T ( r ) 的描述 5 我们的最小一乘方分析表明公式 T ( r ) = 49273.4 r + 166 (单位为时 

钟周期）拟合这些数椐 t S 大误差小？ 0.041 这使得我们有信心能够准确预测这个过程的实际计 
赁时间，这个时间是 r 的一个凼数 D 

然后，我们用 K 次敁优方祛来测量性能，参数 K = 3、 6 = 0+001，而 M = 30。 我们对大量 r 的 
#1进 行这个 测量，決得的预期运行时间的范围是 0.27 〜 50m^ 对于得到的每个测量值 M<r ), 我们闬 
Ur) = (M(r) - T(r)/T ⑺来计算测量误差 E m (r)。 图9,14展小了在一个 Ime] Peniium IU 卜.运行 Linux 


e 尖际上就是操作系统分配 s 合--个进程的时间段 a ——泽者 
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的系统中，对 K 次最优方法的一个试验验证。在这张图中，我们给出了作为 T(r) 的一个函数的测景 
误 SE m (r)， 这电我们给出的 T(r) 的单位为 ms。 注意 t 我们是以对数尺度来显# E m (r) 的： 每条水平 
线代表测景误差的一个数量级。为了使准确率在1%之内，我们必须让误差在 0.01 以下。我们不试 
图显示任何小于 (X001 (也就是0.1%)的误差，因为我们的测试识境不提供这么高的精度。 

Intel Pentium III, Linux 
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图 9.14 k 次最优测置方法在 Linux 系统上的验证 

与执行时间 最卨为 Bms 时> 我们都能获得非常准确的測量俱（误差人约在 ( U %)。 而除此以外 t 4负裁很耔的机器 h ., 
我们遇到的系统过 卨估计 大约是4%〜6%,而在负栽比较重的机器 h , 结果就更差。 


这三组数据表明的是在二种不同负载情况下的误差.我们看到，在所有二种情况中，运行时 
间小于大约 7.5 ms 的测量都非常准确 t 因此，我们的方法可以用来在负载很重的机器上测 M 相对 
比较短的执行时旬 D “负载 1”那组数据表明的是 只有一 个活动进稈的情况。对于大于 10 ms 的执 
行时间，测董值 T m 全都会过髙估计计算时间 T e 人约4%〜6%。过高佔计是因为花/时间来处理 
汁时器 中断。这些数据与图 9.3 所示的 irace ■致， 这个 trace 表明即使是在 ■ 台负 载很轻的机器 
上，-个应用程序也只能执行95%〜96%的时间^ "负载 2” 和“负载11”那两组数据展示的是还 
有其他进程在执行时的性能 & 在这两种情况中，对于超过大约 7 ms 的执行时间测量值不准确得离 
谱。注意 f 误差〗 .0 就意味着是 T e 的两倍，而误差10+0就意味着丁^^是八的^倍。很明显， 
操作系统调度每个活动进程一个计时器间隔 7 。当有 n 个活动进程时，每个进程只获得 l / ii 的处理 

器时间。 


根据这些结果，我们可以得出结论说， k 次最优方法提供 r 对非常短时间计算的准确结果，对 
于测鼋超过大约7 ms 的执行时间，这种方法真的不够好，特别是还有其他活动进程时， 

不幸的是，我们发现我们的测量程序不能可靠地确定它是否获得了准确的测量值 t 我们的测量 
过程计 算它的误差为 Ep(r) = (v k - Vl )/v n 这里 ' 是第 i 个最小的测量值。也就是，它 if 算的是这个 


7 原文是 time interval p 而我们认为是 dn>er intervaJ 
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k 次最优方法中不同 K 值的效果 

要想有合理的准确性 t K 必须至少为2。当程序时 间接近 T ■计时器问®时，在负载很重的系统丄， 人亍 2的值会有帮助一些。 
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Intel Ptntiuni III, Unux 


100 



过程到达我们收敛标准的程度如何 6 我们发现这些估计值过于乐观了。即使是对 T - 负载11的惰况， 
测董值的偏移达到了 10倍，程序却一直估计它的误差小 J 1 0.00]。 

设置 K 的值 

在我们前面的试验中，我们仟意选抒参数 K 的值为3,即为了结束整个测量过程，在我们的测 
暈结果中至少有3次的测量值相比于蝻快测量值间的误差在一个指定因子内。为了更仔细地衡 S 这 
个因素的影响，我们使 K 的值从1变化到5,并进行了一组测量，如图 9.15 所示=我们进行这些测 
量的执行时间范围到了 9 tm , 因为这是我们的方法能够获得有用结果的时间上限. 


Pentium 111, Llnui 
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Pentium 111 , Linux 
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9.15 k 次最优方法中不同 K 值的效果（续） 

当 K =1 时，在进行一次测量后，过程就返回。这样得到的结果非常不规律，持别是当机器负 
载很重的时候6如果刚好发生了计时器中断，结果就更不准确了.即使没有发生这样的灾难，测量 
值也容易受很多因素的影响，变得不准确^将 K 设置为2就极大地改善了准确性=对于小于 5 ms 

的执行时间 t 我们得到的准确性都大于0.1%。 K 设置得越大，结果的一致性和准确性就越好，直到 
大约 8 ms 的上限，这些试验表明我们最初猜想的 K = 3是个合理的选择。 

补楂对计时器中断的处理 

计时器中断的发生是可预测的，在我们的执行时间超过大约 7 ms 的测董中，计时器中断会导致 


C.h 






很大的系统误差。通过从一个程序测量 li ! 的运行时间中减去一个花在处理计时器中断上的时间的估 
计值，除去这个偏差是很好的，这耑要确定两个因素： 

1. 我们必须确定处理个计时器中断詬要多少时间。为了保持我彳 N 从+低 佔过程的执行时间这 - 
m f 我们应该确定处理一个计时器中断所甫的最小时钟周期数。这样的话，我们永远不会过度补偿。 

2+我们必须确定在我们测 t 的吋间段内发生广多少次计时器中断。 

使用类似于产生图 9.3 和图 9.5 中 M A trace 的方法，我们可以发现不活动的时间段_开确定它 
们的持续时间。这些不沾动时间段，有些是由计时器屮断造成的，有呰是由其他系统事件造成的。 
我们 Rf 以确定使用 times 过枵是否会发生计吋器中断，因为每次发生 i 十时器中断时，它的返回值会 
增加 j 个滴答。我们祀100个不活动周期进行这样一个评佔，发现最小的计时器中断处理时间段需 
要251 466个周期。为了确定我们正仵测 t 的程序执行期间发生的 t 卜时器巾断次数，我们简单地调 
用 times 的数两次——一次在程序之前， •? 欠在程序之后，然后计算它们的差。 

图9」6嵌小了这种改进过的测景方法所获得的结果 D 如闯中所示 T 现奋在负载很轻的机器 b 
即使是对执行多个时间间隔的程序 T 我们也可以得到非常准确（在1.0%之内）的测 t 值了。通过去 
掉计吋器中断的系统误差，现在我们有了 ••个非常町靠的测章方法，另-•方面，我们 W 以看到这种 
补偿对运行 t 负载很重的机器 f : 的程序没有帮助。 
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9 16 补偿计时器中断开销的测曩 

这种方法极人地提岛了在负载很轻的机器 1. 持续时⑺较长的测里的准 确性。 

在其他机器上的 if 估 

因为我们的方法极人地依赖干操作系统的调度策略，所以我们还在其他二种系统配 t 上进行了 


试验 


1,运行 Linux 内核较老版本（2众36和 2.2.16) 的 Intel Pentium III。 
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图 9」7 K 次最优测量方法在使用较老内核版本的 1A32/L1HUX 系统上的试验验证 

在这个系统 h 即使是对有较长执行时间的程哼，持别是在负载很轻的机 器上， 我们 也能获 得更准确的测 t 值。 

9 J 8 展示 r 在 Windows NT 系统上的结果总地来说，这些结果类似于那些较老 Linux 系统的 

结東。 对子短 时间的计算，或者在负载很轻的机器上，我们可以获得准确的测量值，在这种情况中， 

我们的准确度是大约 0.01 (也就是 L 0%)， 而不是 O . OOU 不过，对于大多数应用来说，这就足够好了。 

另外，在负载很重的机器上，我们可靠的和不可靠的测量值之间的门限值大约是 48 ms , 一个有趣的 

特性是，有时候在负载很重的机器上，即使是对最长245的计算，我们也能够获得准确的测量值。 

显然， NT 的调度器有时候会允许进程保持活动较长的一段时间，但是我们不能依靠这个 属性。 

Compaq Alpha 的结果如图 9 J 9 所示。我们再次发现『在负载很轻的机器上，几乎任意持续时 

间的程序测董出来的误差都小于 L 0%。 在负载很重的机器上，只有持续时间小于大约 10 ms 的程序 
才能被准确测量。 


2. 运打 Windows-NT 的 Intel Pentium m ,虽然这今系统使用的是 IA32 处理器，但是这个操作 
系统与 Linux 完全不同。 

3. 运打 Tru 64 Unix 的 Comp 叫 Alpha 4 它使闬的是一个非常不同的处理器，但是操作系统类似 


于 Linux 


如图117所示，在较老版本的 Linux 下的性能特性非常不同。在负载很轻的机 器上， 对于 /L 乎 
任意持续时间的程序，测量值的准确性都在0.2%以内。我们发现，使用这个版本的 Urmx， 处理器 
处理一 个计时 器中断只花费了大约3 500个周期。即使是在负载很重的机器上，它允许进程一次最 
多运行大约 lSOms。 这个试验表明操作系统的内部细节会极大地影响系统性能和我们获得准确测量 
值的能力1 
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9.19 K 次最优澜量方法在 Compaq Alpha 系统上的试验验证 

对于负载很轻的系统，我们总是能获得准确（误差< 1.0%)的测置值^对于负栽很重的系统，大千 lOrm 的持续时间就不能 
被准确地 测童了 > 

练习 K 9.7 

假设我们希望测量一个需要 tim 的过程，机器的负栽很重，因此不允许我们的測量进程一次运 
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图 9.18 K 次最优測置方法在 WindowsNT 系统上的试验验证 

在负载很较的机器我们总是能获得准确的劂量值（误差大约为1,0%乂在负载很重的机器上，对 f 时氏大丁-大约 48ms 的 
测量 t 准确性变得非常左。 
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行超过 50ms . 

A + 每次试验都包括測量这个过程的一次执行，假设一次试验从 50 ms 时间段中某个任意时间点 
开始，允许这次试验运行完成而不会被交换出来的概率是多少？将你的答案表示成 t 的一个函数， 
考虑所有可能的 t 的值 D 

为了使其中的三次測量是这个过程的可靠測量（也就是，那些在一个时间段之内完成的运行)， 
预期所需的测量次数是多少？将你的答案表示成 t 的一个函教，你顸测 t = 20 和 k 40 时这些值应该 
是多少？ 


m 


这些试验证明 K 次最优测量方法在多种机器上都工作得相当好 D 对于负载很轻的处理器，在大 
多数机器上，即使是对长持续时间的计算，它总是能得到准确的结果 . 只有较新版本的 Limix 会导 
致非常髙的计时器中断开销，严重影响测量的准确性。对于这个系统，补偿这种开销会极大地提高 
测量的准确性。 

在负载很重的机器上，当执行时间变得比较长时，获得准确的测量值变得很困难。大多数系统 
都有某个最大执行时间，当最大执行时间超出了测量羿限，那么准确度会变得非常糟糕，这个门限 
值高度依赖于系统，但是通常是在 10 〜 200m S 之间。 


9-5 基子 gettimeofday 函数的测 

我们对 IA32 周期计数器的使用提供了高精度计时测量，但是它有个缺陷，那就是只能工作在 
IA32 系统上。最好是有一个可移植性更好的解决方法 & 我们看到库函数 times 和 clock 是用间隔计 
数器来实现的，因此不是十分准确。 

另一个可能性是使用库函数 gettimeofday 。 这个函数査询系洗时钟 (system clock ) 以确定当前 
的日期和时间。 


tinclude "time*h 


struct timeval { 

long tv_sec; 
long tv_usec; 


"Seconds */ 

I’ Microseconds */ 


int gettimeofday(struct timeval 


NULL ) 


返田： 若成功則为 o , 若大敗則为 -1 

这个函数把时间写入到一个调用者传递过来的结构中，这个结构包括一个单位为&的宇段，还 
有一个单位为 ns 的字段，第一个字段存放的是 S 从 1970 年 1 月 1 日以来羟过的总秒数（对予所有 
的 Unix 系统来说，这都是一个标准的参考点)注意，在 Limix 系统上， gettimeofday 的第二个参数, 
应该简单地置为 NULL , 因为它指向一个未被实现的执行时区校正的特性。 

在一个 32 位机器上，到什么月期 gettimeofday 写入到 tv _ sec 字段的值会是负数？ 

如图 9 . 20 所示，我们可以用 gettimeofday 来创建两个计时器函数 staJtJimer 和 get _ timen 它们 
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类似 P 我们的周期计时函数，除/它们的测量时间是 J 秒为单位，而不是以时钟周期为单位的。 


code/perf/todx 


^include <sys" 」 me*h> 
ttinclude <\jnis^d.h> 


static struct Limeval tsiart 


4 


产 Record current time 吟 

void sLarL_limer { 


get:L ■ 丄 meofdsy (&tstart, NULL )； 


10 




/* Get number of seconds since last call to start_timer */ 

double get_tmer {) 


12 


13 


L 


15 


struct timeval tfinish ； 


16 


ong sec, usee ； 


17 


18 


gettimeofday(&t£inish, NULL) 

tf iriish + tv_ 

t finish.tv 


19 


tstart.tv_sec; 

tstart.tv u 呂 ec 


see 


sec 




20 


nsec 


usee 




21 


le-6*usec? 


return sec 


+ 


22 


code/perf/tod,c 


9.20 使用 Unix gettimeofday 的计时过程 

这段代 W 可移柏■常好 ， 但是它的准确性依赖 t 时钟是如何实现的 D 

这种计时机制依竣丁 * gettimeofday 是如何实现的，而 getlimeofday 的实现是随系统的小 ㈣ 而小 
同的。虽然函数产生一个以 p 为竽位的测量值看上去非常 W , 但是事实讧明测量值并不总是那么 
准确，图9.21展示了在几个不同的系统 h 测董这个函数的结果。我们定义函数的分辨度 ( resolution ) 
为计 时器吋以分辨的最小时间值 d 我们通过反复调用 gettimeofday 托到 写到第一个参数的值改变 
了，來计算这个值 4 那么，分辨度就是它改变了 的^1 

分辨 MS 级的时间，而另一些就没那么精确有这样一些差别，是因为有些系统用周期 i 十数器来 

实现这个闲数，而其他系统是用间隔计数的 6 在前者那种情况中，分辨度 nj 以非常高 一一 潜在地 

高于数据表示提供的 lms 的分辨度。在后面那种情况中，分辨度会很糟糕——儿乎和函数 times 
和 clock 提供的相当。 

9.21 还展示了在各种系统上调用 getjimer 所需的执行时间 ( latency ) ^这个属性表明了调用 




正如这张衣所小，有些实现实际 上吋以 




这个函数所需要的最小时间 D 我们通过反复闻用这个函数直到经过了 Is , 再用1除以调用的次数 t 
来计算这个值 D 正如看到的那样，在大多数系统上，这个函数调用需要大约 1ms， 而在其他系统上 
需要几个 tns, 相比 之下， 我们的过程 get_ CO vmter 每次调用只需要大约 0.2^^ —般而言，系统调用 
比 W 通的函数调用需要更多的开销。这个执行时间还限制了我们测董的精确度。即使数据结构允许 
以更高分辨度的单位来表达时间，但是当每次测量引起这么长时间的延迟时，我们还是不淸楚能够 
多么准确地测量时间。 


分辨度〔叫) 


执行时间（叫) 


Pentium II, WindowsNT 


10 


5.4 


Compaq Alpha 


977 


0-9 


Pentium ITT T.ifiuK 


0.9 


SutiUltrftSparc 


1.1 


围 9.21 gettimeofday 实现的特性 

ft 些实现使用的是间隔计数，而 S 他的使用的是周期计时器.这极大地影响 f 测暈的 精确性。 


9.22 展# 了我们从一个使用 grttim e0 fday 而不是我们自己的函数来访问周期计数器的 K 次 


使用 gettimeofday 


0.5 


04 


Win+IT 


0.3 


UflUK 


进行 r 补 s 
的 Liduk 


B 


-o.a 


250 


预期的 CPU 时间 （ms) 

9+22 使用 geitimeofday 函数的 K 次最优测置方法的试验验证 

Linux 是用周期计数器来实现这个凼数的，所以精确*与我们的计时例程一样。 Windows-NT 用间隔计数来实现这个函数的, 
因此精确度很低，特别是对丁，短的持续时间来说9 


-03 


-0 4 


WM L ， 


•XI 
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最优测 t 方法的实现得到的性能。我们展小/在两个不同机器丄的结果，以说明时间分辨度对精 

确性的影响。在 Windows NT 系统上的测量 值表明 的特性类似于我们在 Linux 系统上使用 times 

时发现的特性（图 9.S ), 因为 gettimeofday 是用进程计时器来实现的，所以误差 nj 能是负的，也 

nj 能是正的，对于短抟续时间的测量，尤其不规律 . 对于较长的持续时间，准确性有所改进，良 

到对于超过 200ms 的持续时间误差小于2.0%时，在 Linux 系统上测鼂值给出的结果类似于 S 接使 

用周期计数器时得到的结果。通过比较图9+14中负载1结果的测量值（没有进行补偿）和图9_16 

屮结果的测 t 值（进行了补偿），可以看出这-点。使用了补偿，即使是对长达 300ms 的测量， 

我们也可以获得好于0.04%的准确度，因此， geuimeofday 与直接访问这台机器上的 周期讣 数器完 
成得一杼好。 


9.6 综合： 一个实验协议 

我们 N 以以协议的形式总结-卜我们的试验发现，来确定如何回答这个问 题：“ 程序 x 在机器 
Y 上运行得有多快？ 

如果X预期的运圩时间很长（例如，大于 LOs), 那么间隔计数应该就工作得足够好/，而 
吐对处理器负载不敏感。 

如果X预期的运行时间在范围人约0_01〜 1.0s 之间，那么在负载很轻的系统上，使用准确 
的、基: P 周期的计时来进行测量就很重巷 j% 我们应该执打 gettimeofday 库函数的测量， 
来确定它在机器 Y 上的实现是基于周期的，还是基于间隔的. 

• 如果函数是基于周期的，那么用它作为 K 次最优计时函数的基础 4 

• 如果函数是基 I 间隔的 t 那么我们必须找到一些使用机器的周期计数器的方法 。这 p ]* 
能会需耍汇编语言编码。 

如果 X 预期的运行时间小于大约 0.01 s , 那么只要使用的是基于周期的计时，即使是在负载 
很電的机器匕也可以完成精确的测量 6 那么，我们着手用 gettimeofday 或 S 接访问机器 
的周期讣数器，来实现-个 K 次 M 优计时函数 s 


睾 


9.7 展望未来 

系统 中1 入了几个对性能测量有很大影响的 特性： 

• 与进程相关的周期计时， 对于操作系统来说，管理周期计数器相对比较容易，所以它指明 

了某个进程经过的周期数。那么，当进程重新变为活动时，周期计数器被设置为当进程上 
次非活动 ( deactivated) 时它的值，在进程不活动时有效地冻结/计数器，当然， il ■数器还 
是会受内核操作开销和高速缓存的影响的，但是至少其他进程的影响不会很严重。己经有 

些系统支持这个特性根据我们的协议，这允许我们使用基于周期的计时來获得火于 
大约 0.01s 持续时间的准确测量值*即使是在负载很重的机器上 D 

频率变化的 时钟. 力 了降低功耗，未来的系统会改变时钟频率，因为功耗肖接与时钟频 
率相关。在那种情况中，我们不会有时钟周期弓 ns 之间的…个简单的转换。其至于很 
难知道应该用哪个单位来表达稈序性能。对于代码优化器，通过计算周期，我们能获得 
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更多的了解，但是对于实现带实时性能限制的应用的人来说，实际运行时间会更重要一 


些。 


9.8 现实生活： K 次最优測量方法 

我们创建了一个库函数 fcyc ， 它使用 K 次最优方法来测量函数 f 所需要的时钟周期数: 


#include " cLock*h 
# include " fcyc ^ h ^ 


typedeE void (*test:_funct) [int *); 


double feye ( test_funct f , int * params ); 


返回：运行参教 params 的函教 f 所使用的周期教。 


参数 params 是一个指向整数的指针。一般而言，它可以指向一个整数数组，这个数组是被测量 
的函数的参数。例如，当测量大小写转换阐数 lower 1和 lower 2 时》我们传递一个指向一个 int 的指 

针作为参数，它是要转换的字符串的长度，在产生存储器山（第6章）时，我们可能要传递一个指 
向大小为2的数组的指针，其中包括大小和步长 

有很多控制测量的参数，例如 [ E 和 M 的值，以及在每次测量之前是否要清除高速缓存 t 可 
以用同样在这个库中的函数来设置这些参数（详情请参见文件 fcycii ). 


9.9 得到的经验教训 


通过设计一种准确计时方法，以及在许多不同的系统上评价这种方法的性能的努力，我们学到 
了一些重要的 经验： 

• 每 个系统都是不同的. 关 f 硬件、操作系统和库函数实现的细节对可以测鼋哪种程序以及 
精确度可以达到多少都有很大的影响。 

• 试验可以是非常有启迪性的. 通过运行简单试验以产生活动 trace 的方法，我们获得 r 对操 

作系统调度程序的深入了解。这产生了补偿方法，它极大地提高了在负载很轻的 Linux 系 

统上的准确性。一个系统与另一个系统是不同的，即使是一个 0 S 内核也与下一个版本的 

不同， 能够分析和理解影响一个系统性能的各个方面是很重要的 6 

• 在负我很重的系统上获得准确的计时特别 因难. 大多数系统研究者在专门的基淮系统上进 

行他们所有的测量。他们常常关掉系统的许多 0 S 和网络特性，以减少会引起不可预测活 

动的 因素。 不幸的是，普通的程序员没有这么奢侈。他们必须与其他用户共享系统。即使 

是在负载很重的系统上，我们的 K 次最优方法对于测量短于计时器间隔的持续时间来说， 
也是相当健壮的。 

• 试验建立必须控制一些造成性能变化的因素. 高速缓存能够极大地影响一个程序的 执行时 
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间。传统的技术是在计时开始之前，清空高速缓存中的所有 TT 用的数据，或是在开始时. 
把通常会在高速缓存中的所有数据都加载进来 t 


9.10 小结 


本章开始时提出了一个看似筒单的问题：“程序X在机器 Y 上运行得有多快？”不幸的是 
算机系统用来同时运行多个进程的机制使得很难获得程序性能可靠的测量值。系统活动倾向于在两 
个不冋的时间尺度上进行。在微观级別上，每条指令执行的时间是以 ns 来衡暈的。在宏观级别 b， 
输入/输出交互发生的延迟是以 ms 来衡景的，计算机系统通过不断地从一个任务 ir 刀换到另一个任务 
來利用这种羌异，一次运行若干 

汁筧机系统冇两种完全不同的 id 录时间流逝的 方法。 从宏观角度来#,计时器中断 (timer 
interrupt) 发生的频率似乎很快，但是从微观的角度来看却很漫。通过间隔计数 （imcrva] counting), 

系统能够获得对枵序执行时间的非常粗略的测最值。这种方法只对长持续时间（至少 Is) 的测量 
耵用。周期计数器 (cyclecounter) 非常快，可以得到在微观尺度上很好的测量值。对 F 测1绝对 
时 W 的周期讣数器，上下文切换的影响能够导致很小（在负载很轻的系统上）到很大（仵负载很 

重的系统上）的 误差。 因此，没有方法是完美的。理解在一个特殊的系统上能够获得的准确沒是 
很； t 要的= 


ms 


取决于前面存储器⑴用和条件分支的历史，高速缓存和分支预测的影响讨以导致执行代码 
的某个片段所耑旳时间每次都不冋。通过事先运行某些将高速缓存设置为可预测状态的代码 T 
我们町以部分地控制引起这种变化的因素，但是在有上下文切换发生时，这些尝试就没冇用了。 
因此，我们必须进行多次测量，分析结果，以确定真实的执行时间。幸运的是，所有 ')1 起变化 
的的效粜都是增加执行时间，因此只耑分析确定测出的时间的最小值是否是一个准确的测 


跫值 


通过一系列的试验，我们能够设计丼且验证 K 次最 优汁时 方法，这里我们反复进行测量， .ft 到 
S 快的 K 个值都在某个互相接近的范围之内了。在一些系统上，我们能够使测暈用库函数来确定时 
间。 /E 另-些系统上，我们必须通过汇编代码来 i 方问周期计数器。 

参考文献说明 

关于程序计时的文献出奇得少。 Stevens 的 Unix 编程著作 [81] 记彔了稈序计时的所舒各种库阐 
数。 Wadleigh 和 Crawford 的关 f 软件优化的著作 [85] 描述了代码剖析和标准计时函数 n 

家庭作业 

9.9 ♦參 

根据图9,3所示 mice 冋答下列问题 。 我们的程序估计时钟频率为 549+9MHz。 然后，通过周 
期计数值来计算 trace 中的毫秒计时值。也就是说，对 f 一个以周期来表示的时间程序计算毫 
秒计时值为 ^549900. 不幸的是，程序佔计时钟频率的方法不完善，因此有些毫秒计时值不太准 




A. 这个机器的汁时器间隔为 10ms. 这些时间段^的哪些是由计时器中断发起的 
B 根据这个 trace, 操作系统服务-个计时器中断所耑的最小时钟周期数是多少: 
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C. 根据这些 trace 数据，并且假设计时器间隔正好是 10.0ms, 你推断真实的时钟频率是多少？ 

9-10 ♦♦ 

编气一个程序，它使用库函数 sleep 和 times 来确定每秒时钟滴答的近似次数。试着在多种系统 
上编译并运行这个程序。试着找出两个不同的系统，它们产生的结果至少相差两倍。 


9.11 ♦ 

我们可以用周期计数器来生成活动的 trace, 就像图9,3和 9.5 所示的那样 5 使用函数 startjxnmter 


和 get,counter 来编丐 一 个函数 


tinclude n clock.h 


int insctiveduration(int thresh) 


返回： 非活动的周 期数, 


这个函数不断地检査周期计数器，并察觉什么时候两个连续的读之间相差多 f thresh 个周 
期，这表明这个进程 S 经处于不活动状态了。返回这个不活动状态的持续时间（以时钟周期为单 


位) 


9.12 




假设我们以参数山 eptime 等于2调闬函数 mhz (图 9.10) t 系统的计数器间隔为 10ms。 假设 sleep 
是按照下面这样的方法来实现的 D 处理器维护一个计数器，每次发生计数器中断时，它都加 h 当 
系统执行 sleeps 时， 且当这个计数器达到 t+HXh 时，系统调度这个进程重新启动，这 Mt 是计数 
器的当前值。 

A. 设 w 表示由于调用我们的进程处于不活动状态的时间忽略函数调用、计时器中断 
等各种开销， w 的取值范围是多少？ 

B. 假设一次调用 mhz 得到100(X0。再次忽略各神开销，真实的时钟频率 pJ 能的范围是多少？ 


练习题答案 

练习题 9.1 答案 

一 开始，中断 CPU， 并执行100 000个周期只为了处理…次击键，看上去很荒唐。不过，当你 
仔细研究一下这些数据，就会清楚 CPU 上的整个负载是相当轻的。 

100 WPM 对应于每秒10次击键。100个输入者每秒使用的周期总数会是10 x 】0 2 x = 10 a ， 
也就是处理器能够提供的总周期数的10%, 

练习题 9.2 答案 

这个问题需要仔细地研究这个 trace, 这样就会预期出模式的类型。 

A, 它们每 9.98 〜 9.99ms 发生 一次： 358,93 , 368.91, 378.89, 388.88, 398.86, 408.85, 418*83, 
斗 28+8 h 注意，没有用斜体表示的那些数字是由前面一个时间加上9+98得到的。 

B k K A” 中用斜体表示那些时间。它们引起一个新的不活动周期。 

C 除了花在执行其他进程上的时间以外，不活动时间还包括花在服务两个中断上的时间. 
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D . 我们的进程每 20.0 ms 会活 忒大约 9.5 ms ， 也就是总时间的47.5%。 


练习題 9.3 答案 

这道题就&简节地根据正在执行的进程标出执行呗序，并确定这个进枵是在用户模式中还是在 

肉核模式中。 


1 00 u + 40 s 
80 ii + 30 b 


AU AU AS BU HU Hil BU B & BU AS AU AUAUAU BS BUBUBUBSAU ASAU AUAUA 3 


练习题 9.4 答案 

送是个很有趣的思考题。它帮助你推导出能够导致•■个给定的间隔计数的 R [ 能的时间范1。 

K 图说明/两种情 况： 


最小值 


A 


最人情 


A 


0 10 20 30 40 50 60 70 80 


对于最小的情况， M 断刚奸在时间10处的那个中断之前开始，刚好么时间70处的那个中断发 
生时结贞，得到总时间刚好超过 60 ms 。 对于最大的情况，片断刚好在时间0处的那个中断之后开始, 
并 H . 直持续到时间 SO 处的那个屮断之前结束，得到总 时间刚 好小于 80 ms 。 


练习题9,5答案 

这个习题要求思考的是记账 〔 acanming ) 力法丄作得如何。当进程是沾动时，发生 f 7次计数 
器中断。在实际的 trace 屮，进程 在用户 模式中运打了 63.7 tn S ， 而布内核模式 屮运行 了 13 ms 。 计数 
器过卨地佔计/真实的执行时间 70；(63.7 + 3.3) = r ( MX , 

练习题 9.6 答案 

这个习题要求推 埋出程 序中各种导致延迟的因素，以及4什么情况屮这 些因桌 会起作 ffl . 

根据这些测 f 值，我们得到卜 _ 列结拾 r 


c + 7 i + p - hti = 399 

c + d= 133 ±1 

c + p = 317 

根据这些结论，我们吋以断定 r =100 、rf = 33 、p = 217, \ t \} m = 49, 

练习题 9+7 答案 

这道题要求将概率论应用到•个简¥的进 稈调度模型上 。它说明当时间接近丁 •进程 时间极限时, 
获得准确的测暈值变得 H : 常闲难。 

A . 对冬50,运行在，个时间段内的概宇.是1-仍1对丁 ? >50,这个概宇足0: 

对我们永远也不吋能得到一次试验，它 在-个 进程时间段内执行宂毕，对于/< 
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50,成功的概率是/? = {50 -⑽0,因此我们会期望3//^150/(50-0次运行。对于？ = 20,我们预期需 
要5次运行.而对于/ = 40,我们预期需要15次. 


练习題 9.8 答案 

这是 Unix 版本的 Y 2 K 问题，有些人预测当时钟绕冋来时会是一场令囱的 灾难。 就像对待 Y 2 K 
-样，我们相佶这些恐惧是没有根据的， 

这样的事情会在1970年 〖月丨 日后 2 31 秒后发生。那会是2038年1 月 19日凌晨3:14。 
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一 个系统中的进程是与其他进稈共享 CPU 和主存资 源的。 然而，共享 .1： 存会形成一些特殊的挑 
战。随着对 CPU 需求的增长，进程以某种合理的 甲滑方 式慢了 卜来。 但 铯如粜 太多的进程潘要太多 
的存储器 （ memory )， 那么它们中的一赵将简单地根本尤法运行。当一个枸序超出空间时，它就会 
戌为那个运气不好的程序 

#储器还很容易被破坏。如果某个进枵+小心写 r 另一个进枵使用的#储器.那么进程叮能以 
某种完全和程序逻辑尤关的令人迷惑的方式失畋。 

为了更加有效地管理存储器丼且少出错，现代系统提供『•种对主存的抽象概念，叫做 虚拟存 
储器 (VMh 虚拟#储器是硬件畀常、硬件地址 翻译、 主存、 磁 盘文件和内核软件的完美交 V ， 它 
为每个进程提供了 •■个大的、- •致 的、私有地址空间，通过一个很清晰的机制，虚拟存储器澡供了 
=二个重要的 能力： 它将 i 存看成是一个存储在磁盘上的地 址空间 的髙速缓#，在 i # 中只保存活动 
K 域，并根据耑要在磁盘和主存之间来回传送数据，通过这种方式 T 它卨效地使 ffl 了主4;它为每 
个进程提供 T 一致的地址空间，从而简化 f 存储器管理；它保护了每个进枵的地址宁间不被 K 他进 


程破坏 


虛拟存储器是计算机系统最重要的概念之一。它成功的一个主要原因就是因为它是沉畎地、 H 
动地工作的，不需要应用程序员的任何 r- 涉。既然虚拟存储器在幕后丄作得如 此之好 ，为仆么程序 
员还需要埋解它呢？有以下几个 原囚： 

• 虚拟存储器是中心的。虚拟存储器遍及计算机系统的所冇层面， 么硬件 异常、I编器、链 
接器、加载器、共享对象、文件和进程的设计中扮演着重要角色。理解虚拟存储器将帑助 
你更好地理解系统通常是如何工作的。 

• 虚拟存储器是强大的。虚拟存储器给予应用程序强人的能力，吋以创建和破坏#储器块、 

将存储器块映射到磁盘义件的某个部分，以及与其他进程共享存储器。比如，你知 t 你可 
以逍过读丐存储器位置读咸者修改一个磁盘文件的内容吗？或者尨你町以加载个文件的 
内容到存储器中，而不需要进行仟何显式地拷贝吗？理解虚拟存储器将帮助你利川它的强 
人功能在你的应用程序中添加动力。 

• 虚拟存储器是危险的.每次应用程汴引用一个变暈、间接屮用个指针，成#调用个诸 

如 tmjioc 这样的动态分 flti 包稈序时，它就会和虚拟存储器发生交互。如果虚 拟存储 器使用 
不当， 应用将遇到 M 杂险恶的4存储器冇关的错误 & 例如， - 个带有错误指计的枵卞吋以 
立即崩溃于“段错误”或者“保护 错误' 它可能在崩溃之前还畎默地运行了儿个小时，成 
#是最令人惊慌地 f 运行完成，却产牛.不正确的结果=理解虛拟4储器，以及诸如 malloc 
之类 的管理虚拟存储器的分配程序包，可以帮助你避免这些错误。 

这-•章从两个角度宋 W 论虚拟存储器。本草的前一部分描述虚拟存储器是如何丄作的，后，部 
分描述的是应用拧序如何使用和管理虚拟存储器 5 t 吋避免的事实是虚拟#储器很复杂，木章很多 
地方郁反映/这…点。好消息就是如果你掌握这些细节，你就能够 T ， c 模拟，小小系统的虛拟存储 
器机制，而 FI 虚拟存储器的槪念将永远不冉神秘< 

第一部分是诖立仵这种理解之上的，向你展 W 了如何在稃序屮使用和管理虚拟存储器。你将学 
会如何通过显式的存储器映射和对像 rmlloc 程序包这样的动态存储分配程序的调用，來管理虚拟# 
储器 3 你还将了解到 C 枵序中的•大群常齓的勹存储器有关的错误，并学会如何避免它们的出现。 
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10,1物理和虚拟寻址 

计算机系统的主存被组织成一个由 M 个连续的字节大小的单元组成的数组.每字节都有一个惟 
一的物理地址 (physical address , PA ). 第一个字节的地址为 0 ,接卜来的字节地址为 1 ，再下一个 

为 2 ,依此类推。给定这种简单的结构， CPU 访问存储器的最自然的方式就是使用物理地址。我们 

把这种方式称力物理寻址 （physical addressing )。 图 1 CU 展示了一个物理寻址的$例，该小 例的上 

T 文是一条加载指令，读取从物理地址 4 处开始的字 D 




物理地址 


2 


m 


3 : 


CPU 


8: l; 


8 : 


M -1: 


數据字 


10.1 一个使用物理寻址的系统 


t-1 


当 CPU 执行这条加载指令时，它会生成一个有效的物理地址，通过存储器总线，把它传递给主 
存。主存取 ffi 从物理地址 4 处开始的 4 字节的宇，并将它返回给 CPU , CPU 会将它#放在一个寄存 


器里 & 


早期的 PC 使用物理寻址，而 fl 诸如数字信号处理器、嵌入式微控制器以及 Cray 超级计算机这 
样的系统仍然继续使用这种寻址 方式， 然而，为通用计算设计的现代处理器使用的是虚拟寻址 

( virtualaddressing ) ? 参见图 10 , 2 。 

CPU 芯片 


主存 


0 : 


地 W 翻译 


虚拟地址 


物理地址 


2 : 


(VA) 


(PA) 


3 : 


MMU 


4 : 


4100 


敢据宇 


10,2 一个使用虚拟寻址的系统 


51 












址 ， CPU 生成…个在从崦扯 C vimiHI addles *■ VA ) 来访网 £#, 这个虚拟地址 

fl ■被■佝器之时先砖換成适当的物卑地址 • W —个虚拟地 址转换 为物却地址的任务叫微地故 ft 
# Caddms tiMsIiliei )^ 86像异常处理 

ClfS | j ： nj # MMU ( 

中的 ft 询表家动忐 mi 详 mM , 该廣的内弈由 搛作 私统 竹押的 


cpu i^mm 

■咖 4^# K 管 a # 的专用嵌伴， h 騰敏結存 


iimv 


10.? 地址空间 


也垃重间 ( ncUncfcsp ^) 玷一个11』负® ft 地 li 的存哼奠含, 


fflr I - 2. - J 


如果 HI 址窄 N 中的 K 数&连缝的_ 

为了 K 化找们 ft 们总是 ftS 使甲的1线 ft 地址空河 
从 t 有％^个地址的地讪空间中1成递作地址 


丨么我们说它邀一十找 .14 地址宜问 （linear ddc^M 


) 


、 pve 


在一个带虚拟存 ■«! 器的系统中 . CTU 
r 这个地址空问 S 为 A 空 ft f virtual iddifsa 


sfviw h 


N 


FBI 


个地址交 5 ^ 的大小 是由衣示 鉍人 地址所呌赵 的位数 宋揮述的 


WSP . 一 t 包介_个地 *1 卜时 
幢軌？^叫做-个《位地址啡 j . ■賴时卿紐]2位或#64扯 M 賴空间. 

■々-象线； li f I 1' 物畀 it k 玄 j : phyii^l n * Jm & & p « c >, 它号系茕中 _ 埋存佛摧的 Af 个宇节 


mm 


{0. Ip 3 

对不哦求 ft 2的但费为7笱化4论， 我们俶 Sft Md *. 
地址中_时賴屯諸 ， 因为 它類 蝴分 f«：_s 


M'\] 


■ _ _ 〖地 址、 

■ f _ ㈣ 到 了这吨 Sf _ 臞么酬載可以棚 Sit 鎗, 允许每 tt 财象 會多个粒的地址,奠 

中每个地址热选自， t 不闷 的地歉空间 • 4戰#*拟存陡腓的某本 ,i 且想 4 
过|_|玻拟地址7间盼麻拟坩扯，和个达_物押地址空凋的构遷地址. 


於存中的毎宇 t _ 有-个 


_匀《楸1 

定成 T 面的表格,填写块 九的余 

E f )i W^2* ( ^ 穿万】 

[千 A 兆 L 


■rfK 用追自 的墊數 取武每个闪号 ■ 利用下 f ■:•萆 往」 k =^ 
^■2 T1 十 亿）- r = 2 W f . Sfc ), P *2 m (千 f 扎 h Em2 m 


3 


£nO 


«A^rue f hi 


A 可 te 的 jikuu 






^3 


H 3 


2 1 2%T 
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10.3 虚拟存储器作为缓存的工具 


概念上而言，虚拟存储器 （ VM ) 被组织为一个由存放在磁盘上的 W 个连续的字节大小的单元 
组成的数组。每字节都有一个惟一的虚拟地址，这个惟一的虚拟地址是作为到数组的索引的，磁盘 
上数组的内容被缓存在主存中。和存储器层次结构中其他缓存一样，磁盘（较低层）上的数据被分 
割成块，这些块作为磁盘和主存（较高层）之间的传输单元。 VM 系统通过将虚拟存储器分割为称 
为虚拟页 ( virtualpage , VP ) 的大小固定的块，来处理这个问题，每个虚拟页的大小为 P = 2〃字节。 
类似地，物理存储器被分割为物理页 （physical page , PP >, 大小也为 P 字节（物理页也被称为页帧, 

page frame ) 口 

在任意时刻，虚拟页面的集合都分为三个不相交的子集： 

• 未分 K 的： VM 系统还未分配〔或者创建）的页 . 未分配的块没有任何数据和它们相关联， 
因此也就+占用任何磁盘空间， 

• * 存的： 当前缓存在物理存储器中的己分配页 & 

• 未緩存的 I 没有缓存在物理存储器中的已分配页。 

图 UU 的示例 M 示了一个有8个虚拟页的小虚拟存储器 。 虚拟页0〜3还没有被分配，因此在 
磁盘上还不存在。虚拟页 U 4和6被缓存在物理存储器中.页2、5和7己经被分配了，但是当前 
并未缓存在主存中。 


虚拟4储器 


物理 存储器 


VP 0 


存的 


VP 1 


空 PP 0 


未缓存的 


PP 1 


分配的 


空 


缓存的 


未缓存的 


空 


ft 存的 


PP 2 m_ P-1 


未缓存的 


VP 2"-1 




缓存在 DRAM 中 
的物理页 （ PP ) 


存放在磁盘 t 的 
虚拟页 (VP) 


10.3 —个虚拟存储器系统是如何使用主存作为缓存的 


10.3,1 DRAM 高速缓存的组织结构 

为了帮助我们清晰理解存储层次结构中不同的缓存概念，我们将使用术语 SRAM 缓存来表示位 
于 CPU 和主存之间的 L 1 和 L 2 高速缓存，并且用术语 DRAM 缓存来表示虚拟存储器系统的缓存， 
它在主存中缓存虚拟页， 

在存储层次结构中 f DRAM 缓存的位置对它的组织结构有很大的影响。回想一下： DRAM 比 

SRAM 要慢大约 1 D 倍，而磁盘要比 DRAM 慢大约100 000多倍。因此， DRAM 缓存中的不命中 ( miss ) 

比起 SRAM 缓存由的不命中要昂贵得多，因为 DRAM 缓存不命中要由磁盘来服务，而 SRAM 缓存 

不命中通常是由基于 D _ 的主存来服务的 5 而且，从磁盘的一个扇区读取第一字节的时间开销比 

起读这个扇区中后面的字节要慢大约100000倍，归根到底， DRAM 缓存的组织结构完全是由巨大 
的不命中开销驱动的 * 


H 为人的吊命 +处罚#访_ 柬一字 liffi 开销，典揿页趋 | h ] 守拫 人，典拟地14 〜 8 KB * 111 f X 
tt 不* r _ 处 i ?. MlAM 親 #1 令相眹的.也貌是说, 往雋通 期页_霄蜞放 穴电 蓮试中.不 

命中时的梓換很*饪_ h 为 w » ffi 了蟎拟页的处扪也1常之商，[0此> \±mm sram ® 
存-糨作系统釗 IWAM 嗶#使 I 了¥奠杂钟 ffi 时(这蜱餺換算法靼 ㈩ fail ] 的 i .] 论 iSLHh 
W 后， E 力对诅萌的访问时 问很长 ■ DRAM ( wite - b * ckl . iffi 不是 

t wflftt - llk ^ ^h ^ 

10.3.2 页* 

R 忏 M 缓存 一 給器 i 竦必项有某抻方法来判 t 一个 ffiiaiJI 否 #1 作 DRAM 巾的 ft 

个柚方， SBjfts , 系统述必须这个抉在*个物 sm 中. 如果，命中， mmm ^ 

个成枳页存放 4 m 盘 m 曝个似 朽. t 檢理孖 ws 中选#一个#将*拟贞从_1拷贝 M 
DStAJrf 中. 陴樓 这个栖付 s . 

站些功能地屮叶私软 W 件联合 描供的 ■• 包拮；找作 系埯软件 8 MMU (存 fflfflffs 申 jU 中的 Ml 

个存放 4 物 flfr 结睢中叫 tl 表的 ftK 结构. 页农将虚拟 Si 陕射麫 
物理负，敁次也 』i H 津祛件将一个虚拟也址甘换 JU 物埤地墙何， ffl 会读取 H , 探作珉 缉负相锥护 
~ e 我的内荇 • 以及在 进盘与 I>R \ M 之间宋 回传 iTSL 

t*l It ). 4 了一 t 页衣的苒丰:相织拮抅 ， Cpagr mW 

»fu 鹿拟堆址空间中的每个页布頁在中 m-tai 隹偏移 _ 处柿有一个 pnu 为 ir 我们的〖]的_我 
in 将,设挺个 m «ni -个有效位 (v a M b*o -个 rt 位地址字段祖成的 _ 柯 t 仇在叫/该虚 m 

貝 aflUi 否健级 t 祐 DRAM 4 _ b mmiMML , 啪么地址宇 S 就灰示 [5 KAM 宁相应的物珅页 

ffjiefc 位 pl 这个物 迸贞中璲存 jriikii 拟页.汝有设芮 rfae , 准么有一个空地址*所连个谢 
双页还未被分妃。否 m , 这个地垅从 揸向班 的起始陡霣- 

fj m 

PFE 4 &r 


3 f 表条 EH 的 


tmy 


II 


ttf #H« tmmi 


3 


LS 




a 


PTC? 


VP ? 


mfsmmam 


tfPS 


4 


VPfi 


10 . 




SI 〗0.*中的小■例了一个有 s 个相扣:页和 4 个物 ii 时时系统的 w#,[n|t#^.a^vdv 
VH 和 VP7) ，莳裱缓存在 I3RAMHU _个贞1： VP1 ] 和 VP5) 述來*5分 flr」 P 而斜 F 的页 （VM fll 

VP&) 己计 被分 KT， 8是当_来被 a#。SMH4 中存一个进古1柱意.闲为 DRAM 瓚存是全 
相联的，任*梅押两補可以包含任 t* 拟贞. 


h 
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练习麵 10.2 

确定下列虚拟地址大小 U ) 和页大小[尸）的组合所需要的 PTE 数量: 


P1 


#rtB 




4 K 


16 


SK 


32 


4K 


32 


8 K 


10.3.3 页命中 

考虑…下当 CPIT 卖虚拟存储器 的-个 字时，它被 VP 2 包含且被缓 #iiDRAM 中，会发生什么 
(参见图10.5)。使用我们将在 1( X 6 节中详细描述的-种技术，地址翻译硬件将虚拟地址作为…个 
索引，来定位 PTE 2, 并从存储器中读取它。既然设置了有效位，那么地址翻译硬件就知道 VP 2 是 
缓存 在存储 器中的 A 所以它使用 PTE 屮的物理存储器地址(该地址指向 PP 0 中缓存页的起始位置)， 
构造出这个字的物理地址 D 


物珲 H 巧或者 
磁盘地址 


物理存储器 f DRAM ) 


虚拟地址 


VP 1 


PP0 


有效位 


VP 2 


PTE 0 


null 


_ IPP 3 


0 


I ， 

J — 


0 


null 


處拟 存储器 (磁盘) 


0 


PTE711 


VP1 


VP 2 


常驻存储器 

的页表 (DRAM) 


■ ■ ■ 

VP 3 


VP 4 


VP 6 


10.5 VM 页命中 


对 VP2 中 - 个字的引甲就命中了。 

10.3,4 缺页 

在虚拟存储器 的习惯 说法中， DRAM 缓存不命中称为缺页 （ pagefault ), 图 10.6 展示了在缺页 
之前我 们的 〆 例页表的状态。 CPU 引用了 VP 3 中的一个宇，这个字并未缓存在 DRAM 中。地址翻 
泽硬件从存储器中读取 PTE 3, 从有效位推断出 VP 3 未被缓存，并 R 触发…个缺页异常 d 

缺页异常调用内核中的缺页异常处理程序 t 该程序会选择- 个牺 牲页，在此例中就是存放在 PP 3 
中的 VP 4。 如果 VP 4 己经被修改了，那么内核就会将它拷贝回磁盘。尤论哪种情况，内核都会修改 
VP 4 的贞表条 R , 反映出 VP 4 不再缓存在主存中这一事实。 

接 T 来，内核从磁盘拷贝 VP 3 到存储器中的 PP 3, 更新 PTE 3, 随后返回。当异常处理枵序返 

回时，它会重新启动妤致缺页的 指令， 该指令会把导致缺页的虚拟迪址重发送到地址翻译硬件。但 

是现在， VP 3 己经缓存在主存中了，那么页命巾也能由地址翻译硬件正常处理就像我们在图 1( X 5 


6V0 


JO I" 


他7被 尔了 在架页 之后 疣扪的 示例页农的状 灰 


tDHmi 


物曜属 吁 4# 




PPD 


Pti q o > 


WT 


ppa 


fAAfm mtn 


yp \ 


Wi 


1 bff « S 的 K » N 


1 VP i 


(□ 


: m 


VP 


6 VMffll (之前) 




tAM 4 U 


id_) 


mnm ^ 


#s 位 


o a 




PTC 7 


VP 1 


■JPi I 




VP * 


■ =tik 


10 J VMtftU tz 后) 

ft4LMWvi^a ft VhSiBMR^E. ftrtftttfl n «Ftf ^ /^, 

令# f 氧相 *» 中 iRfttaili ^ l ' f , Ifj 不 4 产 I H 1 尊。 


rlffl 


m 尔代早 期哚叫的■远作 cpir 存 tt # 之间差距的加大4发产生 
SRAM ® 存之前 ■ Wt - 通拟办铀薄系统使哨1和3兄九8^级存不同的术语> Wittt 们的杆多睢念 
論似札 在虚拟办味■的习 ffl 说法屮，呋被栳为 ！!■ 在* ft 值和存捕 S 之间柙进铒的话功叫谢交 

换 uwapping ) 或 tf ft 調度 贝从 苺饞41 久 DftAM , 和从 

*1* f 由涓出到）看盘 ■ q 
不命中，在页断戈际被引用之前赴换人釗曲： 


DRAMJI 

待 -时 fl . 也昶足当商不命中发生时， 4 U 

_*), «_的方法也是有篚 的, 侧 

析有观代系蟪荜使用的是按黹双囱即 变的力 


A 
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10,3.5 分配页面 

图 1(X8 展示了当操作系统分配一个新的虚拟存储器页时，对我们示例页表的影响，例如，调用 
malbc 的结果。在这个示例中，通过在磁盘上创建空间，并更新 PTE5, 使它指向磁盘上这个新创建 
的页面，从而分配 VP5。 


物理页号或者 
磁盘地址 


物理存储器 (DRAM) 


有效位 


PTE0 0 


null 


VP 7 


PP3 


處拟存储器（磁盘) 


「1 


VP1 


PTE7 


VP2 


常驻存储器的页表 

(DRAM) 


VP 4 


VP6 


VP7 


10*8 分 配一个 新的虚拟页面 


内核在磁盘上分 KVP 5, 并且将_指向这个新的位置。 


10.3.6 局部性再次搭救 

当我们中的许多人都了解了虚拟存储器的概念之后，我们的第一印象通常是它的效率想必是非 
常低。假设不命中处技很大，我们会担心页面调度会破坏稈序性能6实际上，虚拟存储器工作得相 
刍好，这主要归功于我们的老朋友局部性 （locality)。 

尽管在整个运行过程中程序引用的不同页面的总数可能超出物理存储器总的大小，但是局部性原 
则保证了在任意时刻 f 这些页面将趋向子在一个较小的活动页面 （active page) 集合上X作，这个集 
合叫做工作集 Cworking set) 或者常驻集合 （resident set)。 在初始开销，也就是将工作集页面调度到 
存储器中，之;5,接下来对这个1作集的引用将导致命中，而不会产生额外的磁盘流量。 

只要我们的程序有好的时间局部性，虚拟存储器系统就能X作得相 当好。 但是，当然，不是 
所有的程序都能展现良好的时间 M 部性.如果工作集的大小超出了物理存储器的大小，那么程序 
将产生一种不幸的状态，叫做颠簸 （thrashing), 这时页面将不断地换进换出。虽然虚拟存储器通 
常是有效的，但是如果一个稈序性能慢得像爬一样，那么聪明的程序员会考虑看是不是发生了颠 


簸 


旁注： 续计裱 页次败 

你可以利用 Unix 的 ge_ge 函 測缺頁 的数量 （ 以及许多其他的信急) 


10.4 虚拟存储器作为存储器管理的工具 

在上一节中，我们看到虚拟存储器是如何提供-种机制，利用 DRAM 来缓存来自通常更大的虚 
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拟地址空 R 的页面 * 有趣地 1. ■■些早期納系统,比知 DECPDP -1 ■仰, 支持»*_个 K 物 II 存 W 

小的改松地址宇间 * 谢榨地址奶 fil — 个有用的机因为它大允地岡化了 frM 器卄亂 

#提供/ 一妒简申自坊的保铲吞 

利 lii 印为 ih 我们娜佃设有一个申齟的负 表. 将一个 J ® 取地 111 ■令 N 映射到樹_地址 SNl . ^ 
上，_!作系统为 ft 个进构班调了一个独立的页衣 B W 而也就 迫一个 &立的虚《地址空间 
塘示丫基本嘅念.迕这个小例中， awn 的 n * 将 vpi 映射 pi pp 3, VR 映时到 PF ?， 相似地. 
进柑表柙 VP ] 到 PP 7, \ T 2 眹 W 到 PPlfl . 注 A . 多 t ® 拟 KlfeiiJ 以硖射列问一个技平物许. 

页面上_ 


1 0. 9 


■ 






UiitHif 


itfil 


Rf^A 


10.9 'VM m^ m 提俱 《 7 的坤 : ._ ¥ l>l 


系埤中的句 tiftflflitr t»t 的 lift 


feJTffifii 调甩和 独讧的说拟地址空间的眛含时疾统 q 存 Mismfg 币和 f 亂裔成 TSk 的 f 响. 
特钊地^ VM 简化 f 培栝利加载，荘，代以及对 符用分 k # ms .> 

10.4.1 简化链接 

妞立的 Jt 址乎⑷ ft 怦每个进 ft 为它怕冇昽器映慊使币相冋的 S 本 栴式. 南不管 ftwili 数据实际 
存理存储 M 的何处，例如，每个 Linux 进押柿使用陶他10斩示的苒式* 

文氺 HfiJI 从_拟地址如 &_ ( KJ(1 灶开 Wi. m 是从地 i^OiWHmf (Vllf 阡 ft. 共亨库代码总 
是从地址 tk«MKwrooii 开始， 而枨 作系统代码和败捆总是从地址 0s«：_K)0 开始 ■ 这打的一钻性 

极大地周化了链核鄆的 iflit 和 i 现. 允 w 链菝眯 t 成令链接的 w 执行文#.这作珂执钉文 ftmt 
r ■物 n 疗储器屮 代硏相 it 携的 t 终位 t 时， 

10.4.? 简化共享 

铀立池址空间为捵作呆统垛供 : r 一■个 t 理明户边租和棵 tf 萆 ta 身之 ㈣ 共李的一致机斛 ，一肝 
而吉 ■ 毎个进种 w 有自己 it •有 的代 码、堆以及拽 冈域. 是不和 it 他_稗许亨妗 ， mmm 
中 r 味作系统釗进 页放， 均杻应的! a 拟 k 映射到不 r 的物押 ifif . 

然間.洗一些 惝况中， Ji * 霜1进柙宋共享代码利 俽挺+ 例如，每个进柙必纬例 的嫌作 
系统 fife 代 W ¥ f 每个 C 粉序 拥金 明用标推嗶中的 fs 1 序， 比知 prml 找作系统通过将不:问进择巾 
适曳的 t 拟 liWlW 射列相冋的物 W 页 (Ij, 从而安梓多个进柠典李这钸分代码的一个拷! EU _不馬在 
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每个进程中都包括单独的内核和 C 标准库的拷贝。 


f 用户代码不 
1 可见的存储薄 


内核虚拟存储# 


OstcO^COOOO 


用户栈 


(在运行时创建) 


*esp (枝指针) 


并享厍的存储器映射区域 


0x40000000 


<— brV 


运行时堆 

(运时由 malloc 创建) 

iTii 

( nbss ) 


从可执行文件加兹 


只读段 


( , init ^ .cext 、 .rodat^) 


0 x 0^04600： 


未用的 


图 10+1 D —个 Linux 迸程的存储器映像 

程序总 是从虚 拟地址 Ox&O 你000处开始。用 户栈总 是从虚拟地址 QxbffifflT 处开始。共李对象总是加栽在从虚拟地址 0x40000000 
处开始的 P 域内。 

10.4.3 简化存储器分配 

虚拟存储器为向月户进程提供一个简单的分配额外存储器的机制。当一个运行在用户进程中的 
程序要求额外的堆空间时（例如，调用 malloc 的结果)，操作系统分配一个适当数字（例如 k ) 个连 
续的虚拟存储器页面，井&将它们映射到物理存储器中任意位置的 k 个任 t 的物理页面，由于页表 
工作的方式，操作系统没有必要分配 k 个连续的物理存储器页面。页面可以随机地分散在物理存储 


器中 


10.4.4 简化加载 

虚拟存储器也使加载可执行文件和已共享 R 标文件到存储器中变得容易 t 回想一卜\ ELF 可执 
行文件中的 .text 和 .data 节是相邻的 □ 为了加载这些节到一个新创建的进程中， Limix 加载程序分配 
了…个 从地址 0x08048000 处开始的连续的虚拟页面区域，将它们标识为无效的〔也就是未缓存的)， 
并将它们的页表条 R 指向目标文件中适当的位置， 

有趣的-点是加载器从不真正地从磁盘中拷贝任何数据到存储器中。刍每个贾面第一次被引用 
时，虚拟存储器系统将自动并按需地把数据从磁盘上调入到存储器，页面引用或者是当 CPU 取一条 
指令时，或者是当一条正在执行的指令引用一个存储器位置时。 

映射一个连续虚拟页面的集合到任意一个文件中的任意一个位置的概念叫做存储器映射 
Cmemory mapping)。Unix 提供了一个叫做 rrnnap 的系统调用，允许应用程序进行自己的存储器映 
射。我们将在 10.8 节中更洋细地描述应用层存储器映射。 
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10.5 虚拟存储器作为存储器保护的工具 


任何现代计算机系统必须为操作系统提 供于段 来拧制对存储器系统的访问。不应该 允仵- 个用 
户进稈修改它的只读文本段， 而且 也不应该允许它读或修改任何内核中的代码和数据结构不应该 
允许它读或者写其他进程的私有#储器，并且不允许它修改任何与其他进程共享的虚拟页面，除非 
所 有的共亨者都显式地允汴它这么做（通过调用明确的进程间通信系统调用)。 

就像我们所看到的，提供独立的地址空间使得分离不同进程的私有存储器变得容易。但是，地 
址翻译机制可以以一神自然的方式扩展到提供更好的访问控制。因为每次 CPU 生成一个地址时，地 
址翻译硬件都会读个 PTE , 所以通过在 PTE 上添加一些额外的仵可位来控制对一个虚拟页面内容 
的访问，十分简图 10.11 展一般的概念。 


带许可位的页表 
SUP READ WRITE 地址 

VP 0: No 1 Yes No 

VP1: _No Yas Yes 
VP 2; Yes Yes Yes 


物理存储器 


PP6 


PP 0 


进程 i: 


PP4 


PP2 


PP2 


PP4 


: PP6 


池址 


SUP READ WRITE 

VPO: No Yes , No 
进桴 j: VP 1. Ves Yes Yes 

VP 2. No I Yes Yes 


PP9 


PP9 


PP6 


PP11 


PP11 


lo . n 用虚拟存储器来提供页面级的存储器保护 

在这个示例中，我们 d 经添加了三个许可位到每个 PTE。SUP 位表示进程是否必须运行在内核 

(超级用户）嶁式下才能访问该页。运行在内核模式中的进程可以访问任何页面，但是运行在用户 
模式中的进稈只允许访问那些 SUP 为 0 的页面 D READ 位和 WRITE 位控制对疋面的读和写访问。 
例如，如果进稈 i 行在用户模式下，那么它有读 VP 0 和读写 vn 的权阳。然而，不允 许它访 W 


VP2 


如果-条指令违反 r 这些许可条件，那么 CPU 就触发-个，般保护故障，将控制传递给-个肉 
核中的异常处理稈序。 Unix shell 典型地将这种异常报告为“段错误 (segmentation fault)". 


10.6 地址翻译 

这一节讲述的是地址翻译的基础知识。我们的 R 标是让你对硬件在支持虚拟存储器中的佝色有 
正确的评价，并给你足够多的细节使得你可以亲手演$—些具体的不例 * 不过 T 要记住我们省略了 
大 ft 的细节，尤其是和时钟相关的细节，虽然这些细节对硬件设计者来说是非常重要的，但是超出 
了我们讨论的范围。图 10 . 12 概括了我们在这节甲将要使用的所有符号，供你参考 # 

地址翻译是一个斤兀素的虚拟地址空间 （ VAS) 中的元素和一个财元素的物理地址空间 （ PAS) 

中元素之间的映射 
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MAP:VAS-PASUf) 


这里 


MAP (A) =A f 如果虚拟地址 A 处的数据在 PAS 的物理地址 iV 处 D 

=0如果虚拟地址 A 处的数据不在物理存储器中。 

图] (M3 展示了 MMU 是如何利用页表来实现这种映射的 CPU 中的一个控制寄存器，页表基 

址寄存器 (page table base register，PTBR) 指向当前页表 a n 位的虚拟地址包含两个部分：一个 p 
位的 VPO (virtual page offsets 虚拟页® 偏移）和一个 Cn-p) 位的 VPN Cvirtual page number t 虚拟 
页号）。 MMU 利用 VPN 来选择适当的 PTE， 例如， VPNO 选择 PTEO, VPN1 选择 PTE1， 以此类推, 
将页表条 0 中 PPN (physical page number, 物理页号）和虚拟地址中的 VPO 串联起来，就得到相应 
的物理地址。拄意，因为物理和虚拟页面都是 P 字节的，所以 PPO (physical page offset， 物理页面 
偏移）和 VPO 是相同的。 


基本#数 


符号 


描述 


虚拟地址空间中的地 址数貴 

_ 

物理地址空间中的地址数童 
页的大小（字节） 


N = 2 


AU 

P = 2T 


进拟地址 （VA) 的组成部分 


符号 


m 


虚拟贞面偏移量（字节) 
虚拟页号 " 

TLB 索引 
TLB 标记 


VPO 


VPN 


TLB 1 


TLBT 


物理地扯 (PA) 的钽成部分 


符号 


描述 


物理页面傰移量（宇节> 
坊 S 豉号 

缓冲块内的字节偏移董 

高速缓存索引 
~~ ~~ ■" ■ ■■ 

高速缓存标 E 


PPO 


PPN 


CO 


a 


CT 


图 10」2地址 翻译符 号小结 

图10,14 (a) 展示了当出现页面命中时， CPU 硬件执行的步骤， 

• 第一步 ： 处理器生成一个虚拟地址，并把它传送给 MMU。 

• 第 二步： MMU 生成 PTE 地址，并从高速缓存/主存请求得到它。 

• 第三步：高速缓存/主存向 MMU 返回 PTE。 

• 第四步； MMU 构造物理地址，并把它传送给高速缓存/ 主存。 

• 第 五步： 高速缓存/主存返回所请求的数据字给处理器 & 

和页面命中不同的是，页面命中完全是由硬件来处理的，而处理缺页要求硬件和操作系统内核 
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协作完成，如图10+14 (b). 


地址 


页*基址 
寄存器 

( PTBR ) 


PP-1 


虚拟页偏接童 （ yro) 


虚拟 Kg CVPM ) 


有效位 


物理页号 （ PPM ) 


页表 


WN 怍为 
到页表中 


的索引 


如果效位= 

那么页面就不在 

存储器中（玦 50 


pp-t 


物理 j £ 偏移聚 （ PPO ) 


物理页号 ( PPN ) 


物理地址 


10J3 使用页表的地址翻译 


② 


CPU 芯片 


! PTEA 


[PTE 


① 


S 速 


(D 


处珲器 


MMU 


缓存/ 


VA 


存储器 


PA 


@ 


数据 




(a ) 页面命屮 




异常 


缺页异常处理程序 


© 


CPU 芯片 


PTE 失 


栖师 


PTE 


① 


卨速 


④ 




处理器 


磁盘 


MMU 


mi 


VA 


存储器 


⑦ 


④ 


Cb ) 缺页 


图 10.14 页面命中和缺页的操作视图 

VA ： 虚拟地 fth PTEA ： 负表条目 地址； PTE , 页表条 Ht PA : 物理地址。 
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第一步到第三步 ： 和图10,14 U ) 中的第一步到第二〔步相同。 

第四步： FIE 中的有效位是零，所以 MMU 触发了一次异常，传递 CPU 中的控制到操作系 
统内核中的缺页异常处理程序。 

第 五步： 缺页处理程序确定出物理存储器中的牺牲页，如果这个页面己经被修改了，则把 
它页面换出到磁盘。 

第六步：缺页处理程页面调入新的页面，并更新存储器中的 PTE , 

第 七步： 缺页处理程序返回到原来的进程，驱使导致缺页的指令重新启动。 CPU 将引起缺 
页的指令重新发送给 MMU 。 因为虚拟页面现在缓存在物理存储器中，所以就会命中，在 
MMU 执行了图 1 CU 4 ( b ) 中的步骧之后，主存就会将所请求字返回给处理器. 


练习靥10,3 

给定一个32位的虚拟地址空间和一个24 位的物理地址，对于下面的页面大小确定 VPN 
VPO , PPN 和 PPO 中的 位数： 


# VPNS #VPO 位 #PPN 位 #PPO 位 


P 


4 ； 


4 KB 


&KB 


10-6.1 结合高速缓存和虚拟存储器 

在任何既使用虚拟存储器又使甩 SRAM 缓存的系统中，都有应该使用虚拟地址还是使用物理地 
址来访问高速缓存的问题。尽管关于这个折中的详细讨论己经超出了我们的讨论范围，但是大多数 
系统是选择物理寻址的 & 使用物理寻址，多个进程同时在高速缓存中有存锗块和共享来自相同虚拟 

页面的块成为很简单的事情。而高速缓存无需处理保护问题，因为访问权限的检查是地址翻译 
过程的…部分 D 

图10,15展示了-个物理寻址 K 髙速缓存如何和虚拟存储器结合起来。主要的思路是地址翻译 
发生在高速缓存查找之前 a 注意页表条0可以缓存，就像其他的数据字一样。 


PTE 


CPU 芯片 


PTE 


命屮 


i PTEA 


PTEA 


+命中 


MMU 


处理器 


VA 


PA 


I PA 


不芾中 


教据 


LI 


数据 


' ~~ - . - - 苒速缓存 

10,15将虚拟存锗器与一个物理寻址的离速缓存结合起来 

VA ： 虚拟地址； PTEA ： 页表条 R 地址； PTE : 页表条目： PA : 坊理地 ih 







10.6.2 利用 TLB 加速地址翻译 

正如我们看到的，每次 CPU 产生一个虚拟地址， MMU 就必须查阅…个 PTE， 以便将虚拟地址 
翻译为物珲地扯。在最糟糕的情况卜，这会要求一次对存储器的额外的取数据，代价是儿十到儿百 
个周期。如果 PTE 碰巧缓存在 L1 中，那么开销就下降到1个或2个周期。然而，许多系统都试图 
消除即使是这样的开销，它们在 MMU 中包括了一个关于 PTE 的小的缓存，称为 TLB (translation 
lookaside buffer， 翻译后备缓冲器）。 

TLB 是一个小的、虚拟寻址的缓存，其中每一行都保存着一个由皞个 PTE 组成的块。 TLB 逍 
常有高度的相联性。如图 1(X16 所示，用？组选择和行匹配的索引和标记字段是从虚拟地址中的虚 
拟页号屮提取出来的。如果 TLB 有 T=2 l 个组，那么 TLB 索引 （TLBI) 是由 VPN 的 t 个最 低位组 
成的，而 TLB 标记 （TLBT) 是由 VPN 屮剩余的位组成的。 
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VPN 


图 10.16 —个用来访问 TLB 的虚拟地址的组成部分 

图 HU 7 U ) 展示了当 TLB 命中时〔通常情况）所包括的步骤 D 这里的关键点是，所有的地址 
翻译步骤都是在 MMU I :执行的，因此非常快。 

• 第 一步： CPU 产生-个虚拟地址 
• 第二步和第 三步： _U 从 TLB 中取出相应的 PTE , 

• 第四步 ： MMU 将这个虚拟地址翻译成一个物理地址，并且将它发送到岛速缓存/主存 4 
• 第五步：岛速缓存 /t 存将所请求的数据字返回给 CPIL 

当 TLB 不命中时， MMU 必须从 L 1 缓存屮取出相应的 PTE , 如图 10.17 ( b ) 所示 ， 新取出的 
PTE 存放在可能会覆盖 一个已 经#在的条目。 
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( b ) TLB 不命中 


10,6.3 多级页表 

到目前为止，我们一良假设系统只用一个单独的页表来进行地址翻译，但是如果我们有一个 u 
位的地址空间、 4 KB 的页面和一个4字节的 PTE , 那么我们总是需要一个 4 MB 的页表驻留在存储 

器中，即使应用所引用的只是虚拟地址空间中很小的一部分。对亍地址空间为64位的系统来说，问 

题将变得更复杂 6 

用来压缩页表的常用方法是使用层次结构的页表。我们使用一今具体的示例来加深你对这种方 
法的理解。假设32位虚拟地址空间被分为 4 KB 的页，而每个页表条3都是4字节。还假设在这一 
时亥彳，虚拟地址空间有如 F 形式： 存储器的头 2 K 个页面分配给了代码和数据，接 F 来的 6 K 个页面 
还未分配，再接下来的 I 023个页面也未分配，接下来的1个页面分配给了用户栈。 KU 8 展示 
了我们如何为这个虚拟地址空间构造一个两级的页表层次结构 

一级页表中的每个 FTE 负责映射虚拟地址空间中…个 4 MB 的组块 （ chunk ), 这里每个组块都 
是由〖024个连续的页面组成的。比如， PTEO 映射第一个组块， PTE 1 映射接卜来的一组块，以此 
类推。假设地址空间是 4 GB ， 102+个 PTEd 经足够覆盖整个空间 f 。 

如果组块 i 中的每个页面都未被分配，那么一级 PTEi 就为空。例如， 10」8 中，组块2〜7 
是未被分配的。然 Iftf , 如果在组块 i 中至少有一个页是分配了的，那么一级 PTE i 就指向个二级 
页表的基址。例如，如图 10.18 所示，组块0、1和8的所有或者部分巳被分配，所以它们的…级 
PTE 就指向二级页表。 

二级页表中的每个 PTE 都负责映射一个 4 KB 的虚拟存储器页面，就像我们査看只有一级的页 
表一样。注意，使用4字节的 PTE ， 每个一级和二级页表都是 4 KB 字节，这刚好和一个页面的大小 
是-样的。 

这种方法从两个方面减少了存储器要求。第一，如果一级页表中的一个 PTE 是空的，那么相应 
的二级页表就根本不会存在。这表现出一种 Fi 人的潜在竹约，因为对 f -个典型的程序， 4 GB 的虚 
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访问 fc 个 FTE , 第一眼看上去昂贵而不切实际。然而，这里 TLB 能够起作用，£是通过将页表 
中不同层次上的 FTE 缓存起来。实际中，带多级页表的地址翻译并不比单级页表慢 很多。 


10.64 综合： 端到端的地址翻译 

在这一节里，我们通过一个具体的端到端的地址翻译示例，来综合一 F 我们刚学过的这些内容， 
这个示例运行在有一个 TLB 和 Lld < ache 的小系统上，为了保证可管理性，我们做出如 F 假设： 

• 存槠器是按字节寻址的 & 

• 存储器访问是针对1字节的字的（不是4字节的字乂 
• 虚拟地址是14位长的（供14)。 

* 物理地址是12位长的（/?1=12)。 

• 页面大小是64字节 （ P =64 h 

• TLB 是四路组相联的，总共有16个条 

• LI d - cache 是物理寻址、直接映射的，行大小为4字节，而总共有16 个组。 

图 1( X 20 展示了虚拟地址和物理地址的格式。因为每个页面是2^64字节，所以虚拟地址和物理 
地址的低6位分别作为 VPO 和 PPO 。 虚拟地址的高8位作为 VP !^ 物理地址的髙6位作为 PPN 。 


13 12 11 10 


3 2 


VPN 


VPO 


( S 拟 fS 号) 


c 虚拟页 偏移) 


11 10 0 


2 


0 


物理地址 


PPN 


PPO 


(物理页号) 


(物理贝 偏移) 


10.20 小存储器系统的寻址 

假设】4位的®拟地址 （ n =14), [2 位的物 理地址和64字节的页面 （ P ^64) 


10.21 展示了我们小存储器系统的一个快照，包括 TLB ( a )、 贡表的一部分 （ b ) 和 L 1 高速 

m Cc ). 在 TLB 和高速缓存的图表上面，我们还展示了访问这些设备的硬件是如何划分虚拟地址 
和物理地址的位的。 
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10.21 小存储器系统的 TLB、 页表以及缓存 


TLB, 页表和缓存屮所々的愔都足十六进制表示的 ■: 


TLB。TLB 是利用 VPN 的位进行虚拟4址的^因为 TLB 有四个组.所以 VPN 的低两位就 
作为组索引 ( TLBI ). VPN 中剩下的高6位怍为标记 （ TLBT )， 用来 K 别叮能映射到冋 
个 TLB 组的不同的 VPN , 

页表. 这个页表是一 个箏级 设讨，一共有2 8 =256个页表条 M (PTE). 然 Ifij， 我们只对这些 
条 H 屮的幵失〗6个感兴趣。为/方便，我们用索引它的 VPN 来标识每个 PTE; 但是要记 
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都用一个破折号来表示，以巩固一个概念：无论刚好这里存储的是什么位值，都是没有任 
何意义的。 

• 缓存.直接映射的缓存是通过物理地址中的字段来寻址的 & 因为每个块都是4字节.所以 

物理地址的低2位作为块偏移 （ COX 因为有16组，所以接下来的4位就用来表示组索引 
( CI )。 剩下的6位作为标记 ( CT ), 

给定了这种初始化设定，让我们来看看当 CPU 执行一条读地址 0 x 03 d 4 处字节的加载指令时， 
会发生什么 & (回想一下我们假定 CPU 读取1字节的字，而不是4字节的宇。）为了开始这种手: r : 的 
模拟，我们发现写下虚拟地址的位表示，标识出我们会 f 要的各种字段，并确定它们的16迸制值* 
是非常有帮助的6当硬件解码地址时，它也执行相似的任务 t 
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幵始时， MMU 从虚拟地址中抽取出 VPN ( OxOF ), 并且检査 TLB 看它是否因为前面的某个存 
储器引用.缓存 f PTEOxOF 的一个拷贝。 TLB 从 VPN 中抽取出 TLB 索引 (0 x 03) 和 TLB 标记 (0 x 3), 
组 0 x 3 的第二个条 FI 中有效位四 Sd ， 所以命中，然后将缓存的 PPN (0 x 0 D ) 返回给 MMU , 

如果 TLB 不命中，那么 MMU 就需要从主存中取出相应的 PTE 。 然而，在这里的情况中，我们 
很幸运， TLB 会命中。现在， MMU 有了彤成物理地址所需要的所有东西。它通过将来自 PTE 的 PPN 
(0 x 0 D ) 和来自虚拟地址的 VPO (0 x 14) 连接起来，这就形成了物理地址（0 x 354)。 

接下来， MMU 发送物理地址给缓存，缓存从物理地址中抽取出缓存偏移 CO (0 x 0)、缓存组索 
引 CI (0 x 5) 以及缓存标记 CT (0 x 0 D ), I 
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碰置 
=0x354 


因为组 0 x 5 中的标记与 CT 相匹配，所以缓存检测到一个命中，读出在 偏移量 CO 处的数据字 
节（0 x 36)，并将它返回给 MMU ， 随后 MMU 将它传递回 CPU 

翻译过程的其他路径也是可能的 □ 例如，如果 TLB 不命中，那么 MMU 必须从页表中的 FTE 
中取出 PPN 。 如果得到的 PTE 是无效的，那么就产生一个缺负，内核必须调入合适的页面，重新运 
行这条加载指令。另…种可能性是 FTE 是有效的，但是所需要的存储器块在缓存中不命中。 

练习 S 10,4 

说明 10.6+4 节中的示例存储器系统是如何将一个虚拟地址翻译成一个物理地址，以及访问缓 
存的，对于给定的虚拟地址，指明访问的 TLB 条目、物理地址和返回的缓存字节值，指出是否发 
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生了 TLB 不命中，是否发生了缺页，以及是否发生了緩存不命中。如果是缓存不佘中，在 w 返回 
的缓存字节 p 栏中输入“ 


并且空着 C 部分和 D 


如果有缺頁，则在 “PPM” 一栏中愉入 
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10.7 案例 研究： Pentium/Linux 存储器系统 

我们以个实际系统的案例研究来概拈我们对缓存和虚拟#储器的讨论,选用的系统是 Pemhrni 
类的系统，运行的是 Limu 
32位 (4 GB) 的地址空间 d 处理器组件 (processor package) 包括 CPU 芯片、一个统一的 L2 商速 

缓存和一个辻接它们的髙速缓存总线（背板总线 h CPU 芯片适当地包含了四个小 N 的缓存 ：一个 
指令 TLE、 数据 TLB、LI i-cache 以及 LI d-cache。TLB 是虚拟寻址的。 L1 和 L2 缓存是物瘅寻址 

的。 Pemimn 中 M 所有缓存（包括 TLB) 都是四路组相 联的。 


10,22给出了 Pentium 存储器系统的重要部分。 Pentium 系统有一个 
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图 10.22 Pentium 存储器系统 

TLB 缓存32位的页表条指令 TLB 缓存取指单元产生的虚拟地址的 PTE. 数据 TLB 缓存数 
据的虚拟地址的 PTE。 指令 TLB 有32个条 I 数据 TLB 有64个条 R。 页面大小可以在启动时配 
置成 4KB 或者 4MBa 运行在 Penti 碰上的 Linux 使用 4KB 的页面 & 

L1 和 L2 高速缓存的块大小为32字节，每个 L1 高速缓存的大小是 16KB r 有128个组，其中 
每个组都包含4打％ L2 卨速缓存的大小町以在最小值 128KB 到最大值 2MB 之间变化 6 典型的大小 
是 512KB。 

10.7,1 Pentium 地址翻译 

这一节讨论 Pentium 系统 t 的地址翻译过程。图 10.23 描述了整个过程，从 CPU 产生虚拟地址 
时，直到数据字从存储器到达 f 以供你参考。 


旁注，优化地址葡译 

在我们对地址 IB 译的讨论中，我们已经福述了 一个顏序的两个步*的过赛，就是 MMU 将虚拟 
地址译成物理地址，然后将物理地址传送到 U 高速缓存 * 然而，实际的峡件实現使用了 一个灵 
巧的技巧，允许这些步》部分重叠，也就加速了对 U 高速 緣存的访问 

带 4 KB 頁面的 系醎上 锜一个 A 拟地址有 K 位的 VK )， 


I 

并旦这些位和相应物理 

地址中的 PPO 的 12 位是相同的，》为四路组相联的、物理專蚨的 U 高速報存有 128 个組和 32 字 
节的缓存块，每个物理地址有 5 个 { log 2 32 > 緩存搞 衫位和 7 个 0 ^ 128 ) 索钊位.这 12 个位松好 
符合 A 拟地址的 VPO 部分，这絶不是搞然【当 CPU 需要_详一个虚拟地址时，它就发进 VPN 到 

向 UB 请求一个页表条自时， U 高速缓存正忙著利用 
VPO 位查找相应的组，并读出这个组里的 W 个标记和相应的數振字.当 MM ； 从 TLB 得到 PPN 时， 
缓寻己 经准备奸试着把这个 PPN 与这 W 个标记 中的一个进行 tffc 了， 
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每个进程都有一个惟一的页面目录和页表集合 t 当一个 LinuK 进程正在运行时，尽管 Pentium 
的体系结构允许页表换进换出，但是页表 H 录和与已分配页面相关的页表都是常驻存储器的。页面 

目录基址寄存器 （pagedirmory base register ， PDBR ) 指向页表 0 录的起始位置， 

图10,25 ( a ) 展示了 PDE 的格式。当 P =1 时 （ Linux 中总是这样的乂地址字段中包含一个20 
位的物理页号，指向相应的页表的起始位置。注意，这要求页表要 4 KB 对齐。 

图10,25 ( b ) 展示了 PTE 的格式当 P ^ l 时，地址字段包含一个20位的物理页号 f 指向物理 
存储器中某个页的基址。同样，这也要求物理页要 4 KB 对齐。 


31 


12 11 9 


页表物理基地址 


未用 


PS 


CD 


U/S FVW 


宇段 


页表存在于物理存储器中 U ) 或者不存在 （0) 

只读或者读-写访问许可 
用户或者超级用户模式（内核模式）访问许可 
对这个页表的 M 写或者 写回缓 存策略 
缓存禁± (1>或者启用 

这个页被访问过吗？（在读写时由 I 4 MU 设置，由软件淸除) 
页面大小为 4 KB ( W 或者 4 MB (1) 

全周页面（在任务切换时，不会从 TI 3 屮 SB 除掉） 

物理页表地址的最高20位 


U/S 


WT 


CD 


A 


PS 


G 


FT 基地址 


(a) 贞面目录条目 （PDE) 


31 


12 11 ft 8 


5 


3 2 


Q 




页 as 物砰基地址 


m 


操作系统可用的（在二级存储中的豇面位置) 


宇段 


贝表存在于物理存储器中 （1) 或者不存在 （0) 
u 读或者读/写访问许可 
用户或者超级用户磺式（内核模式）访 w 许对 
对这个页表的直写或者写回缓存策略 
缓存禁止 （ U 或者启用 （0) 

引用位（由在读写时设1，由软件洧除） 
修改份（由 MMU 在写时设置，由软件淸除） 

全局页面（在 仃务 切换时不会从 TLB 中驱除掉) 
页面基地址丨物理页表地址 的最岛 20位 


P 


U/S 


WT 


CD 


A 


D 


G 


Cb) 贝表条 H (PTE) 


10,25 Pentium 页面目录条目 （ PDE > 和页表条目 ( PTE ) 的格式 






PTC 有两个谇 町位. 丹宋校_对达个 III ! 的的 R / W 位明 i ： 这个以断的内我 ItnT 读 JnJ 号的, 

丄 ft 否可以 在用户 i 式下访闷 ntf 曲' 这 it 保铲了 攤作 * a 内核中的代 


边 feK 读的， u/s ft 


_ ft 相不 S 用户租序的彩_ 


就 ItMlill ： 翮谇饵个 flm 迪址一 tf 、 它也会钯祈两个其炮 的位， 内核 i »5 T 姥洲柙中 nf 眭*使 
1||这_位.毎次铒网〜个 I ^ H ). VMVIUffiS ： 胃 A 位，也用扯 【ifftweNlh 内核可以用引 
1 ■料现它 _iiff 乘算法， « Miiin't 

个 fils 被楼改 ; TSIWlfti 有时也叫做 t 故 I* EdJny |PP BC >, 雔改 # 告诉内核在它拷 \ 一 个賛代 1 面 
II. ftS 必 ■ 与问柄时页面，内核可以 ffl 用一 个符铢的内核構式报令窠浒哚引 H] 成 # 修占 位， 


MMU asirjft . 也叫做修改 4 i (dbty mK 




旁注 E ft 行谇可和畢】申区灣出攻击 

盆惫， Ptruura 頁表条 B 缺少一个执行许邛位， fl 来技_^个頁[1的内容是备可以* Mi 行 
冷£議出攻击利 H 邋个砘 *■■ 在用户 ft 上 JL 糗釦 敎和 适片我碼 Ui 3 tX 如 ft 有达蛘一个执行 
位_部么柙柚齔可戊域过限劁 * f 艿伞代 HA 的拭件权来鴻瞼这种攻壶的威醵了, 


Rttribin 1 ! dj 衣 Hif 


I, HWfilwT PhitlimMMtJ 知蚵使闲 Wft M 表 . 符一个 虚报油址 ■ 锋成物 《 地 M 

>^霰分成1个10卩1坎， VPN 】 在 PDBR 推肉的瓜月录中索引一个 pd pde 中的地 W ； 孢向 
的鉍个珉表的基址 fcvpwa 索扪 ■ I I 


通 


VPNi 索引的 PTE 中的 PPN 和 VPO 述接起来形戍了拘押执 




10 




If 


VPU1 


vpa 


irn^v 


字娜 _ 


mTum 

7 ㈣ 1 




fi 


mUHiii 的 

«r h - i ) 


HD 


tm m ) 


mm ^ 


ap 


si ^§ 




■D.2fi Peniium 贝步 Mif 


Pttitium Tl.ft Hif 

W 10-27 触了 Pcnciusi m^P TIB 翮哞的吐枨。 I 


PTE 索引的组 1 H Cll-U 
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命. >■ 出么就从这个 统存的 PTE 屮抽取出 ph JHR 这个 PPN 利 ■ vpo it 接起来聆成物 減 地 Jil - 
feiSi 没 有蠼存 Rij , H 趕嫌存 / mu < 娜分 TO ft 中)， _ ■ 


那 4 MMU 必袖存:它形醮物翊地 it 之前， 
从存抽器中提 取相应 Wn_E ■最庳_如汜 PDEftPTEjl 没 fjAS# [TLB 十:#中 ], 靨么 MMJ；#- 


PTE ， 以彤 成裨 用地 W 

* mn ： 


u 


CPU 


VPN VPO 


'?T TLBl 


TU fi'p 


71 


中 




I a 


TLft 


PPN 


0 








M )^,2? P&nftjm TLB 


10-7 2 UrtUK® 枪存储拥系统 

—个虚 AK 存储 》i 铁迕 求峽钟和内 ft 软件之间时絮密协竹， 热吻: ^此完愤的闻釋超出 m#j 财 
晚的釘 R. 在这一小节中收 ttjwnsi 对 _■ | | 

一 个实塚的操作 叛统是如问组 安虚拟打睹狀，以及如 hm 押峡页的， 

Unun 为每个进 S 锥拌了一个 攀袖的 虚姒地卟空间，彤式如田101拥析尔，我们己经多次刊 
过这礓困了_包括它阳些镳 悉的 代再、数赛 ， ^ I 

鋪:讀嘛够填入努多的关于内核虚挪_勝的细 ，丁 ，这⑽虚似 ㈣ 即 I .地址 OiwfflMOOOO 之 

内核娜柿_中 m 賜 in 純. mtiiii 拥 as 晒他 ㈣ 顺 f 「进程共享 
t 物 bi _* _■ 聲个關 共奉内_+^和企 rm 结构 ■ w 也#-纠连_ 

ssm 页 It (大小芩于系统中 PRAM 的总 t > 映 *1 到相应的一组连 镂的物 Jiff 曲\ lit 为内核捣硏了 

猶朗_理存 ms 中任何持 st . ir 她，#它》批-隹设备上执行存_ 
映射的 W ) 拟作 《 t 而这巧 设苒被 映射利特定的 ftjf / flis 卩 t 

内咚塘拟奋诎器的抹他区鴻包贪坶个进样_不相 | H] 的数据 • t 例包梠页内陵存:琿构的上卜， 
文中仇*|代码时 仗用的 fit 赳 a se# _ 拟地址空间当 • 讎 k 甚神数掮结构' 

Llr ^_ :勒■髓腑 j -卽域（進叫做彼）的集合* - 个区域 U ™ k 就是已時 在涵 
■:已分 w 的 j ( d _ k ), 这吗珣 »存 s 器的页 it [是 以某种友哀相关眹的，例 

il ' 代峨' R # a , w , 共李库 ft , 以及用户找薄恚不网的匾域,毎个赛在的虚拍萸面 霈保^ 
某个 ls 域巾 ， 而不鹰 f 某个 区減的 遒#1裹不#在的 _ 并且不■裱进■引 用, 区城的槪念框搋 f , 

它 fcWI 拟地 址^间 存间 K , 内核 f 不 ia 朵那电不存在的®拟页, „ _这杵的贝血也不 


拟存轱 b 糸铼__个；述，使你 (iw 大 ; nr*i 




从李5以及找段.我们已迚《畎讪朝诱, 










« 盘或贵内核本 g 中的任甸联 外资薄 


••倒 _■ KH. _1 和 
_钵构 1 9imi 


时_个4« 

fei - l^lrj 


< 


内拟存 




IMStttB 

¥一： 

m 咖 mo 

Via - Bf 1 - 




Jlfr-'H 




加 4 O 0 ODMO 


mmum 


ItiK 




i . h ^) 

e*fjHtt._M f .jhtTT 

Mtil 

* 止色城 


Oj ( Caa 4£ p ^ l ] 




to 


一个 LinwxaHS 的肅抝存鴒器 

JD .2 S 讲埤 r U 瀵一个进相中 I # 拟存 ttJftH ； 域的内核数 tEttt , 内被在系擊中为毎个进梓 

hairnet ). 在畀®皞屮时元素包含或#栉向内核 a 行违 
itsffip ^ Hkr j ^ iHHiSI 搰 hit 户 w 的彳 & 针， w 汍行 fis 文件的 g 宇， Bm^a 


擔护 -t 单袖的^务结构（濰代吗中的[ 


■唯_1|||«1中的一个条 y 術向! n ^! 


h 它掸述厂《拟办镞盎的当前状盔，我们釀兴趣的 rt 个 


% 


字段 fcpgd ftimnapH red 坩 ft KM Rit 表的基扯, 

钻构》 K 中钿个 


—个 v 巾 


m . 


is 

梅描还了 if * n 地 t 空间的一个区域 (arftuTU 核运 


UJ 


m 


P 


I ! 


L-d ： !B-1iilTh 


vm 


I & 


行这 今进 k 时, 它 SI 挎 psd 存技在 PDBR 痄制 ## 器中 ■ 

兔 YfltffJ 的 HOt —今 ft 体区域 的托域 SfiW < wiLa«^>iiwO 忸牙 Tsi ■的宇 段= 

衔_这 个区线 m fcfe 灶， 
m . trid ： 術向这个区 域的结 t as 

^ jpo^t 描述这今迟域内仅含的 所有贞 ifii 的 ii 写忤叫权 ft ! ■ 

描述这 tK 域内的页 血岛否 赶1 3 其愴 aw ■丼穸的,此是这个腹柑私打时[庄描述 

了杜他一些恬赵3, 


vni 


P 


携 At 我中下一个 k 域钴肉 


vpn _ ncK!t 




庠抽 存铸 ss 


6?/ 




™j3XBC 

■ llMqu 






nmi 


D^i-dDDDDaa 


m 




文本 


帥 4PC1DD 


■JHJ3 fcuL 

■ F ]_ 


ro .» 


linus M 知何 tel 存 睹器的 


[缽 常处 IE 


舰 MMU 作试 fel 腳某 f 雌池址 A 时* 贿了，钱 L 这个賊导 致_| 转移刹内核的 
决页处 B 相^址埤■哼_后 ft 执行 K i^Si I 

■ awwi 地 ▲ •舌法的嶋? _谁说 ， hmmmm 
为了回 猝这个 n e ■ ttsctt 陳 ■ 序拽 概 m 构的 H 犮 ■ | 

做比教，_蒹这个龄班不金法的, 那么峡 页处理 e 序眈鮮 一 个侧误 + 从_ ii . 这个进 

_—- 这个婧 Kffi 閹 HH 中#识为^ ' 

闲为一个进柠_1以: 〖创 ilttiS # 的箝 啪枳办储斟 K 域（漫用汰下一 


vra „ arca ^ u«|】ik 又的 N 域内 _ ? 


A W 每个 EK 域结 ft 中的 


vmaian 


节 ■:■描 iJifl 5 』_ ip 硪粒） ，所 

以域崎的 SI 4 花•可置#搐大 t 耿在$隊中, f 用我 { TI 没有显示出 来的事 抉. 

Lin 抓在钭农咋该加了…《树，并在这揉 W 上进疔跦栈. 

1 i 4 TO ⑽職0闕_轉糾？朗 ㈣ 料祕 # _ 伸糊页咖 权 

这个缺甩1不是由一条 UIW 时这今 代码段 I 的只谈弭_进行弓操 *1 的存«指令追成的？ 
这个块贝是不是因为一 


? i ^ iar , 


、 个运什4用户轵武中的进 mm 城内核 ^mm 巾读取7 «成的？扣來试 

明进打的边 m ft 不寺法的，那么峡頁® a 程呼会轚发一个保护拜常 
AEB ».30_ 3 标识为 


从而汴 si ■这个11权，这钟情况 


3■此幻 


内核如迫厂这个油甩圮由于对 t 法的 M 拟 m 址进汁合达的换作造成的 • 艺选择 
ftSlilL 知1这个 名修改 过. 

坪这次玫页 1 3莰 w 处坩枵中返 y 时， 

MMU ， 这一風 MMUtl & iFfftt 翻译 A , 而不会阵产 


个衲 


么 fit 柙它交 押出去 ，疾入斯的贝 fii , 从拥处 

CPU 重靳£]动刊起破 JTffl 拽令 ■ 这备指令柙冉次: fe 送 A 刊 

: tftur 中旰 r . 




ifTZl 


1 yi 
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•个苹 
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10.8 存储器映射 


□hast 通过将 ， 个 虚拟疔 tfe 器区域，与 一个 Hta 上 (W 对 t tobjccO 

关联起宋*以抝始化这令通拟吾《111«的内弃-这个 过柙称 丸存储 
通拟存储塀 is : 域可以靦射到电的对象； 

LIMsi 丈件 鮝沐中 的普邐之件，…个£城町以_射« — 个科通_盘文# <侧如一 f 邛軼行 E 3 K 
娜 的 n 劣部分.文件峻分成 iifij t 个的片，每■包汴一个虚拟 I 麻的抝 始内尨 ， mmm 

tr 页向调度，所以这迕遇權弭曲没有实眯交換 S 人物耶存柚器_ I 利 CFL -扔 一次弓[币到 I ® [也就 

I发射 个虚 拟地 址. 钵在地址铲间这个I面的范預之内 >, 如来区喊 It 文件的这部讦哲 .太一 
那么就甩零 JR 硪充这个区域 的余下 椎分， 

2. m 文件；一个以呋射到一个 i 名丈件， 1® 文 件甩由 内搽创功的， 

二进」 零* CPUU —次引用这样一个区滅内的 t 拟 Slflj 时，内核就在钳理存 SIS 屮伐到一个合适 

时柄牲1面> I 朿该页面被修 S 过 ■■ _这个垔》换出农.用二进制？«&枘牲 III ?. 丼€!€页 

技. 将这个! tflM 样记为 S « i 掏在存 tt 器中 的，注 t 在明衢和存之⑷开 Sf 实 的玫 枥传送， 
® 为 这个垛 ra, ft 酎到限名文件 的叚域 屮的页_%妨时也叫做清求二 aw 拿的 


巧 咖 ppin ^ 


( d ^ TTund-zero 


W ) 


一旦一个通拟 i 面槭初始化]%它 a& —个出内执推铲的爷门的交 硖文件 
ni=> tra 换宋供去*交换 t 件也叫徹 s： 機空 w (i^p ^> 或# 交城 

霉 ¥tLH 到的很 ii 势的一在任何时妇-交検空问辟限 掛播当 肝运行费的 ffm 够分隹的崩拟 




KJ 


.n 


wV 


r« 的 

■ £s 

角曝口 

# V 

P-Hl 


@ 
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10.0.1 Hf 共事对 ft 

存锛器映 射的揖 念来齟于一个拟闲的发塊 5 jh 期吱 拕存 fia it 系统 flj 以集成利犄 铼的 忙件系统中 
那么 asfll 提供■一种简争1砗》的把货疗 main in 载到存储欞中的友注_ 

正知 Hf j 已好#到的1迸相这一抽袋能够为报个进程探供 自己私 ft ■的 n 姒地扯交洵 
其他进构的 疳珙读 ■■ 不过，许炙进 g 同汗釣只 ac 文本区 ii . 

的进裡镲有相网的文本岜域•而且 ■ 许多相序■肢访时只读运行时痄代興的相冋拷 w 

t W 咋都耍求来色保啪 C 库的 iitoptinifij ： 样时确致， 那么_ _采毎个迸龜 JI 在犓邇 4 M ! 旗中 捆持 

这 ■"■: ■常坩代 W 的鰱制拷 K _ 那随是 梭斕的浪费了 * 牟 k 的趄1 * ttS 裏射给我 们提供 T 一衿的 
II 制，相来控制多个进相抝蚵共寧时 

—个对 象吋以被 SWJf 遢祺存储播的一个0:域_ #1作为*孕对|1. s 么作为拈有时象 

『个进娜-个挪娜映_它的_峨3[^〜憶城|^(||_ ■■ I 

¥1* 作， 


1(1 以免受 


I 


WISH 卜毎个送行 Utix shcEI . ( B 序 tcah 




m 


那么这个进稃对这个 I ?: 域的 \m 

对于 - j 些也把这个其丰对象映射爾它 mn 存》器的其他进枰为 卉. 也龙町见的 
mm ^ m . mis . h 的&始对 t 巾. 

K 方向 r 对于一 个睞时 我私有对象的区域做的改 踅，对于库他迸样 来班朶不 PJ )£ 的 
ft 时这个区域折做的 tE 何丐嫌作翻十:会反映在吐泡上的射象中 E _ _ 

际域叫做共享 E 域. 类地.也有私有 a *^ 

诨璦进相 I 将一个共享时象_射刊它的虚拟存傕器时一个区域中 ■ 

假设边程2将同一个共亨对 f 呋射剡它的地域 :宇间 [并不一定隹和埯哚1扰相同的收描她 || 躲 
■ ICK31 m 


井 11 IE 


I 


个共孪对象睞村劁的通拟存储概 


IMI ( i ) 所示 • 埂在 


m 


! i 




m\m 

_ 抵 #IHS 


IT* 


= FPIf/HB 




mmim 

㈣ frteft 


aaan 

tmma 


m ■ 


■ ㈣ » 




« ，时 fc 


mm 


{!>} 


1( X 3 


■ ■: 9 r ^ 


_ fi：**JT fisi 个一 ■术鼉 Sft W , J 

已椏映射了这个对 ft , itn 

中 ffi 页在条 g 推角 •_ 应的鬚 fai 面,关_点在于 _ ft « 象被 ifcltiJT 多个共享 区域, 
tefifrW 狀中也只希笔#故共皁对柒的”个拷 

在一般 W 况下当然不*这柙的 . 


W 为每个对 tffili ■—个惟_，的史#怎，内核町以 Jfli : Wi 纠定进 ft 


为了力忡，我扪 铸极 拽页曲过示为雄榷佰姑 









私有 W ® 垃 fit 細叫 麵 [写时 _ Jj 4 i-wrile 5 


的巧妙技 长坡映 射利*拟存储榊屮 m , _ 
个 mmu - f 晒村 it 本 knm ^ tn ㈣ 视酵 w 贿对 象的- 

mhi b 比扣， 


I [ ILJ 2 ( a ) ㈣ 肴 T 一种 WR ， K 屮缚个进應 梅一个 ft 杆对象味射到它 fnHR 似存 fl 
器的不 R 区域，但 ftltf 这个对象同一个构珲拷 UL 封于每 A 映射亿有对 ft 的进厢， flfffi 私 th 域 
的 Pt A 条自 ffl 被标 1 A 为只读 ■井 R y 域格_瞥捽记为私有鹌写时 ttw 

的私有1< 域. 它«狹内以纖 at 共車 t 霉存 坫讳中对象的一〜节揉拷贝_ _ n 世仃一个进 S 试阐 

q 私订旰 w 内的某个肝 s , 那么这个写拽作》_ 会她发 t 保 r*» d 

3软障处押稗申注1到 傑铲异 ti ： 由于 asw ； Ki 写私有的与时 拷盯区 喊中的■个1_面引超 
的』■试 会越响 ■中_这个贤_-个新拷贝， E 關料關魄个難拷! H , 然0恢 
I 这个 3 mi 的吋与挟限，細》| ICU 2( b ) 麻示 ¥ 当故 》 t 再 ft 呼返 H 时， CPU 啊梦汍行这今丐徕作, 
现在在新钊边的 M 111 上这个与 ft 作就可以 EF #执 \ 17 , 

ifliitii 冇 时象中 m 拷 sr I 到 m 后可 it 的时婀 ■ v 刊拷贝《允分地使巾了麯有的柙即办 ■储课 ... 


R 也没有进枸试 


nm en 

*mm 




mm i m 


mm 




jim 

*mim 


mm 


物 Bi 


| b h 




Jin^t 




fflia32 —个私有的写时拷贝 ftfe 

㈤ ( n ? e _ 2gritffr 讀夺的 

1 ^ B . 2 再看 brtt 

既热 atflfflM 「虚拟存 ttSflafry； 捵 》«, 那么我们 w 以漪曙地知道 fark I # 玫是如 糾创迂 个 
带有 @ dft * 由拟地址宇间的麥进柠的 * 

13 fort Rift 毽 i ! T 4«_ 用时，内搶为粗 ft ] 建备种戳■结构 『 井分 t 谁■的 !©• 

A 广饴这 个新进 秤创谴_拟 frKiHL 它韧达了当 

報! I ![峩 mis ^ l 铒- 相 中的扭个页而为只凄的， 

松有的3时拷贝的， 

■■■! 触I 賴钟 E 刚，㈣明■細 龍㈣ 酬 _酬紛___碰器叩同 
’这两 个进稅 中的任一 t 后宋进 fj 与 feS 拃时，写， ㈣ 拷 S 3 机_就会创 K 梦页 m _ 

了私有地址节 N 时楠 


tSifS 




.. Uruct - &:域蛣构 C^i 
井# in 齣个进《中的毎个扠域结构为 


^ rucL > 


riizn 


r 


fflPt , 也就匁每个进 
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to .8.3 HI exeeve 函 Sfi 

舰 m 讎碰 S 决射在冉軔序 tm fi 釗# 洪的过枵中也扮喊右 xs 的用色 • K ： 然找们 ri 辨 

HIW 了 K 此衹念， & f ] 就使解 fSMw 柏数劣阼中圯如河 加覼和 玖矸柙序的 ■ 俏没运行也!! 3 1 进 

构中的权序执 tfT 如 F 的 cseew 评用； 


EKecvepd^iLL" j argv, snviron ：! 『 


占_ 5 的&在当前进祝中加《弗运行包貧卉叫执什1^标玄件 ： | ! ^1 : 中的押乎_ 
地修代了今甜程序，加 樣丼运 行__ f 费以下 ji 个垠 ■ s 


a.LMiiW 序有: ft 


刪除匕 4 在的吊户 ih 除 te 进粆弗拟地埴的吊产明分中的己存在的 m 域结构 
昧射私有 


I 为新 W 申时文车、》据、 bs & 和找区蛾创 噻护的 炷域姑构， 所有这 4断时内 

域《赴4 打的 M 时拷扪的_ S ： 本和数揦 h 喊被映时为 a .™ i 义种中的文本 | T ( tffili - hn H 

域 MEff 求二域 佃车刑 ， 瞍时到 _ fe 3：#, 其大小包含汗1_中，托和堆区 _| fem 求'进 
m ^ r 初始长 a 为零 


fCLB ft 括 T 私有区域 的不 「4映 n _ 

ifc * 共枣 E < 如拔 1 MWIS 序节茈辛对象 1 41 南 > 链# r 比如标准 <：■ 

箜对象_是动态雄 fe 到这 个屋 ff 的■丼 f L 映射 fi 用广 #袓地址 ® ffll 中的共事区城内 ■ 

设 k ： 做的康栢-件韦悄 《 t 是社霣3醣进 w 上卜4中的捽序汁 t 器, 

伸之相向文本区域的入 PJlL 


LilK .& Di 邮么这 


下一 次珣® 这个迸样时 P 它柙从 这个人 ri 点开始执 ff * Liiuu (冉根摒谏赛換入祀吗和数据 M[ftf 


■户吒 


械-的画谓农二 ：itnc 的 1 






# 




Inm 的 


* 


■diL 


■ List 




f 

SfflTtt 

a ； fliiiiiit 分 ftfti 


Mim a 41 imvffi 






.oul 


d 叻站叱 UllR L ^ la ) 

RfllaM .tmti 


■ 4 il & 






ffiio.33 tea 器 i 如诃映綱甲户地坩3_的区域 w 

10 A 4 使用 mmap 函数的用户存储器映射 

UoLi 迸相叫■以使用 mrmiiMi 数来飭比祆的通拟冇 W 器 M 域> 扦帱 对染呋 W 食这些 d 埏中 









这 include 






™iri ■ram^pl void ^zd-L-^rt r size_L lengths i nt prot P 
int fliigsr Int £dj «a!f_L off sat] - 


遂«成#时 w 为技勿_術|3成的 41 计.若 A«mt 


求内核创个新时虚拟存 ffls 区域 P SifJB ： 从地扯 始的个 k 坡，并将 
文怦描述符 si 相 i 拊 am - 个 逢缂的 纽块>昧 w 到 这个断的区域 P 连味 m mni \ ki <± urA ,： 
大小为 length 字节.从屮文件开始处 W 择训为 off :?? MM ^ 

暹常被定文为 NULL , 肉了找们的1|的， 我们总 M « tt 鶬始地址为 NULL * 田 KK 34 *1 T 这些参 

鼉 m 愈义， 


地址仅 ffi 迪-■个珩示 


l«ring^5il ^ ^ j 


■tri r: 


LKfigbh { J ^1 A > 


{ 玻扣内株 4 
定的* i #) 


㈣ fne*t 


i ： T ft ) 


之辫瑄 nuiBQ 

的 MStp 

jOM mmop.teM 可视化解转 




如包 3 ■ 描 if 妒 映射的 # 似存储 iiii 域的访 H 梭限位 （ 也就进-在相域钴构中时 
mjwrt ifi)^ 


■ PftCT 这个 M 域内的 Iifti 由可以被 I .: PU 执行的 衔令纠 

， PROTJtEAD ： 这个 K 域内的沉由吋也 

* PROT.WRITE, 这个区域内油 MAl 可写 

* P & OT „ NONBe 这个区域内的负尚不》掖的闷 + 

够 ftfl 啦由裱述被映射时典夹準的位祖成■如來 MAF _ AW > N 輅 id 位被 & B . 并 lUd 为 NUL.L 
取么 射的 对染 it (£ 个陡名付而相应的瘳拟页 f li # 束二进栩；的* MAPjmiVATE H ■ 
战映射的纠 ft 防一个的1时陴 K 时而 HAP.SHARED 一个共享对®々 

bufp = MnapIMLJLb , : size , PROT _ READ P StAPJJUYRT & IHAPjUffiN , (L fiji 

让内 校创«—个新的包禽_^罕竹•的 只读、 私有 ■ 睛求二进 制零的 进拟存 域， 如 M 用成劝 
14 blirp 试含新 ㈣ 域的地讪. 

muamepM 数 M 除虚拟#働*的区域 s 
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堆 』 I fbnffith 


拓嘹 HcMfTiMl 


10.35 


分 《 器将職 A-ai 州大 +_ (btottj 护， 

II 块 (diyjst). 费么愚已分私齣，要么是 空阐的 


D ^ Jk (Wocfc: 1 


S 式地保帘为供炖用使 M 9. 


* i«WUttn <■ 


ghKHt 的 BM 


ilff'tJfc (. t mi } 


10,9 动态存储器分配 


执然^ 以使用 低级的 


p mm ^\ m 但炮大多 》 c 柙作 

i ^ f ¥\ q mcttwfj 

，为单 (h^Hffl 10.35). 在人多 《 
JbtoE 屬开始 ，納^ 上生妖 <m 

E 读做 Inai ' 它播向堆的 _ S ., 


^ ™ 作 运行时：举 Mi 外矓拟 ft S ! »吋.他 ； fl ―忡劫志 4 铜 》 分 it ft 

一个动东 # 钴器牙祀雄绻护着一个进程的 * 柑存砧眯拉域 „.-- 
的 Unix 系统中，坩 fe —个 i # 求二进制¥的区域，它埔 ft 在未初始化的 
K 4的堆 tJ - 対于每 个进 ft . 杓核维妒着一个 f 


甩户 ft 


immiMji 的除从*拟地址 r FPJim , 由接 F 来 hngth 宇节组成的冈域■接 F 来时 l _» 妹 
区域 的喵 m 会导 i [斑铕 浬， 

敏习枝 104 

—A r 序 mrtap ? opy . c , 使用 mmip 碎一人任意大七錡_盘史件辨■玲到 
的名字必領件 为一个争今 秆参 






& ldi ^ uE e 输八 t 件 


rj 


Ffn 


5 


|i Ml 




HI! 


HIT ： 


UUl 




♦ i^elu^t 《 uniamh 》 

#include <% s/nuiaiuhjn 


ihl 


i V 6 l d ■stan 


mun 


ll€„L lifrngth] ■■ 


^ = 若成功 _ i 片 若出 》_ j*-i 


虚构 4 抽 jS 


62 ? 


r! 


^-fl 
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W 抆况忭々闲， rt 刊它敁 A 地技应 W 所分 ―个 己分祀的块议 府已分 ft 状态，柯: K 它披扦放，这 
tfff 放1么 ft 啐堆 植式执 厅的， 要么缺 //铺器分 fltlISS 射喼式执忖的， 

分 M 器打两踔芾本风格，内^ 风格 都要求应用 fi 式地分紀块.它 A 的不 H 2 tt 在予屮 W 个达体 


! CXJkll£i[ ilJwilw) 逛求应用逋式地 ff 咬任 lH ■ 已分 Sri 时块，例如 

件叫供 mdbe 梓宇杈的 a 忒 i>fc 器， CW¥mm miil ^ ^nmit ■个块_井 iSi -』 用 
由数电―放一个埤_ C ++ 中的 


C 样准味坭供 


Free 


dek ^ 悚作符与 C 中的 iimtligie 和 fi 技#1当， 

■* 式命 fc » Umpbid ? fiJ ] Q « iiM ) r 在玛一方也 L 要求分 MS 检 M 忡时■个己计 ilift 不 ft 被柑牛使 
用，热后就释战这个块， 1® 式分 fc 器也叫 ttUMlis ii 自动:的已 

■: f firi 的块 的; 1 IV 叫尚:姑政收莱 priMErcdlcctkMih 阴如， 逆狂 I Lisp ' M ■■以及 Java 之类的 岛级 通 
当 ft 该龜 拉战枚便乘 ff @ i 己分配的块， 

本請卜―的和射 _ liftW 是1式分 Esfis 设计和竑现。 Kli 将在 m 10小 w 屮讨 论二」《分 n . 

ATIM 沐.我#]的讨讼*中予管埋嬸春储 a 的分 Eft * 然而 ■ 学生 们戍谨 «白存 ffl 器分 R 悬，一个 

枰迪的《#_吋以决埂在 ft 种上 F 文中 ■ W # J , I # 彤处进脔輥的应用相序就羚常 f 分 ft」SHC 

赴求丧拇，人块喳扣#储2^濟妇唑用相关的分 H 來背 块中的 介繃雄 
的创_祁怕舛_ 


new 


以吏持 1 形节点 


1 0.9, 1 maltoc 和 free 

CJ ^准库提代了 ■个 < y iimJlocR 序龟的 S 式分 [£ 器 .I 穿通 fcMWrTkiUwrt® 宋从堆小分 H 


HW 


块 . 


flijYcludi «： tttdlib,fe 


利 id 




13 DC t ^ izq_t 迕 I 


桃 若^功#】为括# 


ttlt«l ^ Null.. 


mJki ： i#^^ll_f^ff F 抱向大小 Af 少平节的存 Wf!» 块.这个块在这个 

W 疴的 ffi 有付 ft 焚令做坷卉， 白我们 熟悉的 Uim 私统 ] ： , m^IkH ： ji^l^l 个 S 宇序 （ :rr 产卜边 Jf 

mm 


J 方頃悛 : i 欠为仙 aigMdlru (£79*ffffth 




9 V&p 一个字 有參大 7 

® 想 一下在 S 3 嚤 t 我扪对 IAJl 帆 K 时讨 ft, 

订中， 我们会 ft 设乎是 4 字苄的对 ft , ififtf 是 af 节的叶象_述和件 #L 丰译爰一致妗. 


Ib » c 1 将 4 寧笮对象称泠 (if t M 而，在本 


iy nmiiociftsfiea cwtii 相序败■^的打昧相块 te 可用的 ajii 存砧器 外费大 >■ «4它就返 

III I mil ioc N W # 16 IS . 離爸想 已初 的动 AfriSSmeJil 

个 ft - F ™_ kk ： 的神 :包装 Ur ^ per ) 岣敗 ■■ 它将讦 Si 的存保: ff 树始 


L '3 NULL , fi-m 


firm 


u^:^m ^ it ^： 

化 ㈣- ffl 1 松一个以 _f 已分 ft 块的大小.可以彳 

功 $ 存 W J)| 分 KS c 例 ta milloc) W 以逦过 tt mmap 和 mmatp Ifi ®. 凰式地分 ft 和 _ 歎 _ 

mZr 还 P| 以伸 llbbrt 硪 》h 


_ ■■: U 



Jt 扨存劫 s 


629 


■Iinclude 4 uni^[iSL!&> 


void ^Kbr^iint iftifrr) i 


i£Hf e 若成碡 *1 为老 bn#++_ 若 It_ 則为 -1 


Adi ^ tft ：4 将内咳的 Mi m^i ^ \ m 长 r 壤和 
: 5 fM > 它诚返 H-h ^ effliii tl ^ ENOMEM . 如 ftincr 为零，那么 回 brk 的 j 他 flu 

明个为 ft K Iwt A i * 用 iht 是合法的■而 M 诅巧 妙. 囲为 J6 _ ft t bfk 的旧 ffi 》 ffi 向 S 新准頂上 
_ 如 ( ba ) 宇节, 

M 序蜓通过埤出 ftw : ift 來释块已分 K 的埯 块， 

_ 一 

iifKludfl tfstdlitu 


in 霜 tth brfc mmm 


vgid free(vdid，ptrl 




^ 参&必知 —十从 milltt ： 获辦的 己分妃 块的起始位 t 
来迠义 的. 史 W 的既拽它什么 ffi 不遲甄 

R 取耱_的，》金产生 一 ，+人 雄惑 的运仃对描误 ■ 

_ 旌#「十 rwllw 和 Jiree 約 1] 見&如蚵钾3 - f C 相序的 ItJ 字的 C 非常 i 小的增的 
每十 々扑刊表 J-— 个4 乎忙的字. fflS 标出 的鲈 肜对埯于 tltfe 块影的]和窄 M 抉 
的 、 h 堆由一个大小力 tt ■个 字枘、 ® 字对扞的，空_块也成的_ 

田⑽ fV 序凊束一八4?■的块 ■ Ulalkt 应是，从空闲块的 tiffi 切出 ■个4¥的 
珙，并&回一个 m 向这个块的弟一字的 fMt * 

^ 1«,56 <»d 抛序爾灰一个,5平淋 块。 mallw 的叫应是， 从中 两块的I麵分 ffi —个&字的 

块-在 ■! ■勿 屮， mall & 在块 f ■塽充 J 一个 ffl 外 的丫 . 足为 ffe 持空网块圮两字边界 对齐的 ■ 
n umm , 构坪请求一个的块 


如班 不电. 霹 4 frt ? 的行为坎是 

m 喊不会 ft 诉拖川3设 r # i _ Ef+t 们将4 io.il 


itmm 




^■llw 就从空 W 块的的邮切出一个6 ?的块, 
W mM (d>a 拘 序柙®花 ■ Ifl.fe ih) 中分 It 的布个6宇 fflt， 件意， 在调 ffl ftw fi@] 之 

后^ 指计 r 的 块* 应蝴存 ttts 它我〜 个新的 nmii w 调?〖】 ^ m\ti 
f， 不再 IE 用 p2. 


■ Iy 1[Uft，e)| W 序清求“个 2T 的 ft, tiL 这种俏况中，^步 中被春 放了的 
块的■部分. 并 返回一个衔向这个 F 块的枏针_ 


P 1 


㈤ Pi 


Iing|4*eiE^f jint] | 


If 1 ™ I 


pi 


(hj p2 = mall □(?[?* ilzwi (int ] | 










6 iV 


(c) pi a mu ILna (11' Dizieoi t int 1 ] 




pl 


P 2 


⑽ fr « tp 2 | 








mAllec (3* e ： U_f ( tnt ) 】 




m 10.34 用 maioe 分 KftiR t 块 

*§ 个 vw 对 Ar-n w 个 ( lift 杯比■—个块 ， e 

tr # 娜 j . 


10^£ 为什么要使用动态存髄器分 K ? 

和甲®用汕态存仳 k t w 1 掛的纶 a 1它们!彳 常直到_实 i ^ atj 时 4 才知通某些 ■» w 惦 


构的人小+阕卸. fi 设唤求我 in 蝙1一个咋.它 K - 个 it 个 Asci [抖， itm 铈老 
1* 数，从 Kdin 利一个 CftflUU 偷入1也愤和揿卜_来 要读押 #tt 到锒钳中的 Jt 个 ft 攻组成的 


mm 种硬编码的*大 ft 相大小莳忐执定义这个 s 细 


1 


« include F cBapp.h 

Hd^fi 


MMK 152:3 


iC- 


Inc ar^ay | MA >： KJ } 


h int KiiEil J 


irtL i ( fij 


^€Bnt [ w ld m , &nh 

i F {ii > h^LMji 

印 P_errorf’Inpisfc i i l€ too big" 11 
ler JL = Dj 1 < i#+J 

KCflfif I B 1d - P iarray H])- 


12 


13 


U 


IS 


仰 i t U〕J 


L « 


闲这托被编码的火小 Jttfcft 组通 t 不遝神 好想注。 MAXN 的 IfLfttt # 的，和 11 器 tnj 附的 It 

15存 WIKI 的实私教域没打关系.而 M . 歐榮这个梓序的付川酋姐读取 _tffi MAXN 大的 jt 什.维 
-的 一个 I 龙的 MAXN 恼 联1 眛篇译这个畀甲.凰挎对于 这个陴 穿的示 M 农说 这不成 
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问题，但是硬编码数组界限的出现对于拥有百万行代码和大童使用者的大型软件产品而言，会变成 
一场维护的噩梦。 

一 种更好的方法是在运行时，在己知了 n 的值之后，动态地分配这个数组。使用这种方法，数 
组大小的最大值就只由可用的虚拟存储器数量来限制了。 


ftinclude n csapp 


h 


int main (i 


mt *array 


scanf ; 
array 
for (i 


(int *JMalloc{n * sizeof(int>} 

0 ； i < n; i++) 

scanf ( 11 id 11 , &array [ i]); 
exit ( 0 ); 


10 


11 


12 


动态存储器分配是种有用而重要的编程技术。然而，为了正确而髙效地使用分配器，程序员 
需要 对它们是如何「_作的有所了解。我们将在 UM1 节中讨论因为不正确地使用分配器所导致的一 
些可怕的错误。 


10.9.3 分配器的要求和目标 

显式分配器必须在-些相当严格的约束条件下 工作： 

• 处理任意请求序列 & 一 个应用可以冇任意序列的分配请求和释放请求，只要满足约束 条件: 

每个释放请求必须对应于-个当前已分配块，这个块产生于以前的分配 请求。 因此，分配 
器不可以假设分配和释放请求的顺序。例如，分配器不能假设所有的分配请求都有相匹配 
的释放请求，或者有相匹配的分配和空闲请求是嵌套的。 

• 立即响应请求 a 分配器必须立即响应分配请汞。因此，不允许分配器为了提卨性能重新排 
列或者缓冲请求。 

• 只使用堆> 为了使分配器是 nj 扩展的，分配器使用的任何非标量数据结构都必须保存在堆 




• 对齐块（对齐要求) . 分配器必须对齐块，使得它们可以保存任何类型的数据对象。在大多 
数系统中.这意味蓍分配器返回的块是8字节（双字）边界对齐的 D 
• 不修改已分配的块 D 分配器只能操作或者改变空闲块。特別是， 一 旦块被 分配厂 就不允 

许修改或者移动它因此，诸如压缩已分配块这样的技术是不允许使用的。 

在这些限制条件下丄作，分配器的编写者试围实现吞吐率最大化和存储器使用率最人化 f 而这 
两个性能 n 标经常是相互冲突的 D 

• S 标 h 最大化吞吐率 a 假定 n 个分配和释放请求的某种 序列： 


R n ~\ 


我们希望-个分配器的吞吐率最大化，吞吐率就是在每个 单位时 间里完成的请求数，例 


bu 如來一个分女想花 i 眇中内党成 5 m 个分神: sue 个 w 放 诸求， 耶么它的呑叶牵获 

记_杪 l£KW 次»作7—»1海亩，我扪 nj 以遇过使分 sjw 料故请求的平均忖_鼉+化來使 

呑 it 率最大化. e 如 tifjfifi 利的■外发，个具有合理性 fete 分妃鼉丼不 s 雕， ifiifti 性 
能圮疳一个分 fkiW 求的 feittiitr 时 N 与空数！（成线忡关系. 

fiiJJS 个常数. 


个_放诮求的运冇时 


■ ft 夂化彳用奉 . 的梓平钱妗箱不正确地值设®拟存 站埋敲 一个尤限的笱 
. 实际 i :_ 一 钛中«所有 进哚分 K 的 it 拟存 WSS 的全 k 交换空问 

»限制附 ■ 好的■序热知《*拟存储器超一个有相的 空冋. 必嫌岛效地笮用，对于』1能 
被蓽农分 W 和枰放 人坱々站眯的动铬眯分 H 1 JK 宋说 ■ 允此， 

存很 s 方式^(榷述一个分妃器怯用堆的效举如何. 4我们的拧眙中，鹹订用的砀准足峰位 

视 tfj 抬屯 n 个分 fr 和样油请求的某种壩作 

, R \/-\ n k 

如來一个唑用 我甲 请來 一 Tpftt 的块 I 那么抑到的己分 IK 映的#畝苟 [ p ^ tafldiip 宇节 ■ 
也请求凡定成之 .! fh 聚集有我# Cpiylud ) i 农示为 ft 已分 ffi 的块的有效 
ffi 菁之和< « SH ** S # 的遒篇的(甲，不降低的 J 大4 

友个 i # 求的+值朽螂牟. 教承 ; fi w 柯以 ifiilF 式衍釗 r 

rJ _ ^ 


_ 


I 


科搿半 ( KAulilinti«L ■以前 


ff . 


V 


WA 


ffi 


^ 介甿游的買标波龟在 fft 序?利 M 年 t /- tW 大牝 * iEm 找 in 将®行列的…在 
大 tt # 吐牛^|以入化利用率之间龜 有平 i 关1的_特_是.以埔#1用泰为 代价， 很矜鉍 w _』 jtb # 吐 
辛 M A ； 化的分妃器，分 filSt 汁中」个哲《的桃璀喊场许 两个 H 标之间找封一个透3的平籌， 

$注|敢宽电《性 Ht 

我匍可以遢迓让 ' 成为翁请來峙最高峰，从而便焊在我^对$的定义中狨 窵專構 不阼抵 
的 ftlii . 并晨 允许* 埔长和 


n 


109 . 4 碎片 

淹成堆，用车很低的主淮珥闲 ft 忡称为脖片 （fr^TMrta[iti n > A7Hti 当風然 冇肩使用枘存 
«»但不能用宋诔足分妃議求时 h 就 S . 生这神何两种形式的碎片 s 内》#马 

hugmetmthhl 3和卜郭珍 K s t xiettip l iVogmcniaUcin 1- 

内為砰 片&也一个 e 背 si 块 比存效 《 ft 大时发 中的，很多 iftiphj 觼途通这个叫璀_枘— 
个分《器的实玫 flfflg 对已 SHE 块进卸•个劫 +的 人小 ilfiu 而 这 个大+费比 i 个请戍的 貪效 载斯大， 
戍者_ HH56 (b) 中联刺的. 分 龙潘 "] 能增 Ul 块欠小以壤妃对齐約束备件， 

内 SE 醉片的 t 化赴隨年明了的_ 它揉 ffi 已分 It 块相它 们的 有效 ftflf 之 i 的和 & 因此*在任應时 
耔，内阳碎片的截 It 只啦决于以甫_求的犧 式和 分 ft ： 罂 的实31方式， 

外 # 碎片抵1 $ 调存 储雄合 itS 来足够眯疋一个分况谪求，但是没作一个单独的空闲块足够 ： fc 
■ a J 以来灶 _atil 求时发生的 + 例 to. aS M tDJ 6 U > 中的诮求 贽求 & 个？ 

么如 J*H4] 肉核 H 求钾蚪 的虚拟 存柚器 fltl 法 确圮这 个讷来 ， 即珣在推.屮仍然有 6 个空网的字 ■ f 


■ iniemjl 


而不是2个字 











6JS 


it 的产 卞是 til 个宇避 个空闲坱中 m 


外部碎 y 比内佈晬片 钠《 化 s 闬讓柯闲:& 它不仅曲决 r 以前请朵的獨 z 和分 its 的实现方 

式， 也収决 于将宋请#的樓式， 《»■ 儼 «在*个请求之后,祈 t 空糾块的大小你 
这个岐 w 外部 M，？ ㈣取决于似请求痛式 


| | | | t 搏«析有 W 分 Kif 尤想 J 求比4个字+ 

的块，那么就不会 W 外 SI 碎片_ M —方 ffi, All!*： 有一 +或 If 谓求遐 卓比4个宇大的块. * 么这 
个 堆呔垚 有外沛晬片, 


W 为外雜袢片*壤以 t 化柑不可(£相_的_ 珩11 分 ft； 器典免地采_启发式策咤未试阳箝玲少 
的大空 闲块， B 不 S 维钸大 S： 的+空 网块， 


10 , 9 . 5 实现问 粗 

4 以想像 出的最简扒的分 fli! 器耷粑壜绯枳成 一个火的卞节 敢钼.还有 一 个 ffi 针 P, 扨始栴兩这 
〜IMI 的癟一个宇为了分 Slliffl 宇 tf, ililla 轉庐的 当前值保存在浅麗,将 P 增加 si 取并将 
P 的旧他返0#|调闬甬数， frwflt 炉咿地 it 冋到 iW 用也覼，时不做 4i 也往河 1 KMn 

这 个商中 的计妃狀*设汁中_一种极 iHi 埼况. N 为 HI f ^™ i ] K 相 fiw 只执 tr 掬少慘时坩令 

Pi 率会樺好.瓶因为分 R » 从不*1：使用任有块— 存慵難 利用率将板爱 

也吞吐 咿 flE 科 jff 串之间 ft ft 好 甲衡， （ t 必翊芩您以下几个抖戰 ■ 

* t 闲块 tEte; 畏们如何记 或空 闲块？ 

• 我 f! 如肖选译 - 个合适的空闲块柬放 ff_ 个新分釣块？ 

* 分在我 t ] 埤个伊分 ( t 的块琺貲到某个交 闲块之 ,§ h 我们知何钍这十空 Pf 块屮的剩 

余部分7 

■ 合井! fla;4ii 付处现一个刚剛被《蚀的块？ 

+竹«下4部分将详细讨论这些 h ®, rnmm , 分 pm 以及合 t 这抒的#本技术贯穿芘旰 j ； 

所以我们拷 也一 w 叫做啄式5闲链表的 笥孕空 《 块相织 结构中 来 介相它 iru 






不 >】的空 w 块组织 t 


10-9.6 喼式空闲链表 

任何玄除的分祀鎏 tFStf 费一些 K 诨结构 ■ 允许它来区别块边伴_并区由已 分配块和亨 (科坎 
S 攸分 fcffi 将站些 tfi ’ XJ 嵌在块本身当叶，一个抽 V 的方囊 Jirffl 10^ 


A ： 


Si 


头 


■= h Btfen 

■_& am 


0 01 
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咖 ] 冰猫一 1 " 細 . 

它卅 Mfr 4 st 的斤 




角 fiA# 

分 Kft*J 


填壑 （ Wife] 


lfl .37 











练习昧 10. 

碲定 T* mall 況清求序蚵产 i 的玦太小 f* 头都 a. ft at, 分 ifcS 保椅双 字时条 ， # 1 使用块推 
式如困 t& ■ 订 + 所寺的隨太空闲 鐵札； 块太小句上舍人为 I 相遂的 8 芊 f 的 f 4 ■ 我， 


我扪 称这种访构为 ft 尺空硐链表.垃因为空网块^暹过头®中的 k 小^段绝含地连传十的.分 
ftiijiiw 以1过遍出堆 中的所 wwtt 从而 N 缓地谝历® 个空 闷块的 tt . 注童， mm^^mm 

知 ifl 结+的块，在这个乐例中，扰岛一个 S1 了已分 M 位而大+为 枣的终 It 头肱 d S 
|1?础51、（藏像我们#在取9.]2节+#釗的' 沒1已 tfti 怜 嗍化了空唞块 钓合拌 ■) 

疫式 空阐铕衣的优点&^单_ ai 的》 点是 任佝拽作的？ ha , 闽知敢 ，分呃 的块， 

炎的譴 t y t 中已分 fti 块和肀时块的总效1线性关系 * 

很 A 1昀■点就蛙遼: ifl 到珉统对卉 S 求利分 K 器对块格式的 选柙对 分( V ! 1上的最小决大+冇僅 
制的拟 求_浅打巳分«块產若空卬 tfeniyttii 今姑小衍还小， WJ 0, 如！|&|]假设一个叹宇 m 对齐 
lt « 取么每个坱的大小 睜必奴 宇 <B 字节〕 K 1.1 t - 此 ■ 

的块 Jd ■为 内个宇 t 一 个宇作3^ 

』 个两宇的块， 


I I itXSJ 

'个宇_持刘齐£求_ 叩使 晻用 K 请求一宇 #■ 分 ft ! M 也仍热 


.10.35 用降式空闲链*来 1 SR 址 

:. ■■ 分祀块是打阱》的， Rim, (亢小 r?tn Jti 分 ii 位 h 


ajcDDogoDig 5 ki = dkddogouji 

类似地，一个块人小为 40 C0l28> 字 TJ 的空闲 块存闻下 ■时头 fffir 

(k)iH 40 (}D 2 a I DxD x GkDD 04 K 1 & 2 L 

失辣启 M 就进问用调用 mill« 时镐术的行效崁 ft . 有敢牧微后 it 择-块不使用 的填充 tfS It 人 

小可以 ftfliffij， 芾要填茫有很多拟因, Lt&ll . 填充吋电 t 分 fr」 器笼略的一郴分，呵来对付外部碎 
片 * 或者 feiSl® 坩 它來霣足对齐 要求. 

(K 设块的格式_阁 mj 听示.我幻叶以将椎组织为一十 ]£ 咙的已分紀块和肀明块的序列 ，始 

H 


4这种 情况中 ，-个块 ft 由一个宇的棄郜 ■ fr ® s 荷. 以及 nj 能的一唼釉外的填充绀成的 * 失 
邮编_了这个块的大小（包栝1钿和新 薛的 以及 ii 个块«：己分 n 的还 i 空闲 的， 如璀狀 tm 
加-个双字的«齐摘柬条伴 ■ 那么坎大小就总是&枘倍韋，且块大小的 Wttlft 总 fc 省. 此，我 
们只痛 块大+的 29 个商位.粹放剩余的]似來塢码其也侪总 - 4这种悄 5 L 中，我们用其咿輯 
秘驗 (&分 icft »寰衔明这个块 i 己分叱的.还 ji 空阐的， mn , 间设执们苜一个 已分况的块. 

大.为 M ( ftdfi ) 宇节,■么它 的头* «是 
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10-9.7 放里分妃的块 

当一个应用清求一 tk， 节的块时,分器拽索空闲被 表， 查找一个足够大、可以放I所请求 
块的帘闲块 ■ 分 BC 器执行这种1索 M 方式是甘枝1策略 （pbKJHf ni policy >确企 的. 一些常见的® 

略憨嘗 次述裝 <fLfil frt) a 下一次 iifc frwufi!) 和最 ttilt {^fiih 

从头开始槽*帘闳链农，选样 》■ 个食 IS 的空用块， 下一武趲 tfiifif 次适 (11 很 
只 不过不 慝从链 表的起 始处开始毎次搜索，1蘇从丄一次# 由钻束 的地办丼始.羡*这&检杏何个 
21闲坱 ， 选#匹 Itlft 请冰大+的 i|f 空钼块. 

S_ 次适 (U 的-个视点躉它趋向于将大 昀空闲 块保陏1链衣的后向.缺点1它趋扣于1靠近链 
丧起如处 it 下小空 wi 块的就丁对较大块 mat 时间* 下一次适 EJiiiDM 

«于这样 一 个拟祛江栄我们 上一次 41 个空:陶块沮己 
妓馱埘了一个呷祀，邮么彳被可崦下一次我 m 也》在这个«*块中 发视匹 祀*卜•一次适 fc 比 r 次适 
叱运衧麴瓮明 B ® 快一 亂 一些妍冗 忐嘢. 下一 ft : jtK 的存普睢科甩事栗比■次 ssie 飪纠 
笮，研究述 农明嫌 ttifiw 比&次适配和>_一次适 fcj 的利用率柿軀高一些 ■ 然而，在簖唞空闲链尜 
fli 织坊构中，比_ 钧式空 闲链我中.住甩 MftSE 的缺点是它要衣对*进 ffM 眩的檯童，也后 I 
议们将#复史加«_1(杂旳分离式空闲链表绀织_它实1丁41梓适*:»略，面不筘隹进行彻哝的 

10,9.8 分短空闲块 

&分 啪楙找剡一个匹配 闺空闲 块 8 它扰 必须做 兄一个铕略决定，遲分 S 这个空闲块中荽 
少空间，一个选择班用«!个空用块.茧然这种方武閑肀而快护是主势的觖点*£它佥内冊 
碎片. 抝樂放背衆_趋向于产屮好的四^ 雎么撕外 的内部桦片也1可以掩受的。 

獅 如圯歧甿不太好,， * 么升 KSii 常会选袢将 这个空 闲块分荆为两 si 计 * 

叱块.闳剃下的交成一个新的空闲块 
mm 个府咁的对堆 * 砧器 3 1? 的»求 


mh 


WT 


■ 




ID . J 9 蜓$了分 fid 雄如何分割彻 lO . W ^ K 个宇的 空闷烘 






车 ftl 物/ 
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ij ； 
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1 M 0 ■於分《—今空_块.以濤足一个:1个宇的分配 ■求 

10.9S 获取囍外的堆存储器 

如 i 分 K 器不吐为晴求块找到合适的空闲块，构 发生仆 么呢？ 一个 选#*涊过舍并_些也存储 










10.40 IIP ? 片的 5 i 例 

nm ^f F wi ki amw m. 彳大小 s 字 uhs 介 ki?) b 


10,9.11 带 a 界标记的合并 

势 Kttfi 知 Wf 齡#的？让則 n 样谢坩要释 ft 的块为貪埯，祕,奋并 
K 一个4闬炔»简： 晒具 髙线. ’1时块的头每柑角下一个快的 头画, 崎:: J 柃 ft 这个揞计议判網下 一 
个块 Jt 否 地空闲 的，_粜慝.戲将 它的 大小间中地抝包气翁块头邮的太小上_这两个块在常 t 时詞 

内被合 并， 


ffiiftffi 頃 a 何仓并 wim 的块呢？给定’个 f 头阳的 睡式空闲链也 

鳙私 12龙前_ 旖的位 t . ft 到我们 H 达逸収块* 用隐式空 M 鐮表 r 这逢味著每 ftn 用 I 
W 柩与雉的大个成线忡发系. W 1 使使用史贫杂# 姻的， 闪锭衣纠規> 磧黹时轉 I 也不会址常敬 

KjiudiJUtiHT — 种监明而通巾的牦术_ _織边界林 ii <: hn4indu >- i ). fti 午在常数时 N 内进 fr 时 
Iftfll 块的合抻 ■ R 冲思坩， 如阐 1041所土姑在舞个块的钴尾处_一个脚部 （ fcwter 边 


时 


k fiihimPi R ,任忡实 h 的分 ili 輅柿必翅岔并相祀的4阂块.■玄个过柙称为合并 
^ oalesciTieh 这就提 Hi 了一个1[餮的®略块宙，， ！ ft 是问时执行分紀為可以选扦象即合+ 

coofc ^ ingiH 也就 ft # 俦次一个块楗杯放时，合并所 许的 ffl 邻块，成 f 它也衅以选抟 
抵 it 合并（央 fcmdmitedi E h 也 « ft 等 H 某个 ffl 晚的时托栉合#空网块。倒知 . f ffiSi ] M ： l 推；^ 
合并 ■ K 到某个分®请求失畋, 然后筠 推》个堆.合弁 ffi 有的空 W 块. 

iWi 合丼晛間¥■明了，吋以 A : f » 时间内 执行尭 I 圯足4于某#涛求磚 it 这仲方式会产生 
形式的 抖动. 块£：反 S 地合井 k 1路』: 分削. _:1 i _ 4 1&._中_反 W 地分*41麻 敢一个 

3个字的块锊产生大扣 f 必扭的分泡 和旮 痄，在我 IMitiHIlK 的讨论中，我们会假设使埘守即 ft 并, 
f A l 是体应该/ W . 陕速的分紀达通常会选样某神畴式的推迟含#, 


10.9.10 合并空闲块 

刍分紀器 ft ®- ■个 e 分紀块时， w 能有其他空闲谀弓 a 个飭矸 眩的寶禾块利邻，这箱的卞 
[4 坎吖 tell 起一 种说兔_叫做 M 碎片 ifault ri ^ mcviti ! ioii ), 这电有许多可_的空网坱被闭别晚为小 
的 ■■ II 注帘 用的空闲决*比如■卜 11).40 示了旰紋_ IftW 中计配的块招得到的铛 》L m 

个相都的空_块.谭个的裔效为 i 个宇*囿此，卜宠一个对4宇有! it ® 疖朐讷宋就会大-败, 

空闲块 胂垚计龙小足裤大 ， n 


上相 fi 间坱一莘也 v 的空 wi y : 节中擔述 i 餾_ pfc _ 酈还是不_生 

个足够大的块，成祚如果❖明块 d ^ M 大 WFI 地含 # f . •么分 ftiSitt 会向 内柃味 成额钋的堆 

苌4£通过询用 rrni^ 么垃 iilijyiffl 访 firtft , 存任 种枘况 F , 分会将 W 外 
时如的5存 姑器转 化成一个人•的窄闲 钧 这个块择入纠 fWf 钱我 中，然后将被请雀舵块节 

waiii 个新的申 n 块中+ 
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片屮 ipfii ； 就是央 i 的一个副本 * 抝果梅个块 包粞这 忭一个0部，酈么分 ifcSMt 可以通过泠虚它的阳 ® 
m 时时—个炔的起烚位 t 和状态,这个脚郴总婼尾位 i ■ 一个？的 跑苒’ 
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使用边 ft 标记的堞块 K ft it 


考培当分 《S =# 放当甜块时听能存在时惝况 E 

1. _由的块和后:曲的块柿 ftG 分纪的* 
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于允许我们在不干涉己存在的系统层 rndloc 包的情况 K ， 运行我们的分配器。 


code/vm/memlih. c 


古 include "csapp B h 


/* private global variables */ 

static char *mem_s t art_brk ? /* points to first byte of the heap V 

/* points to last byte of the heap 
/* max virtual address for the heap */ 


3 


static char 

static char *mem_riax_addr p 


6 


8 /* 


mcm_init - initializes the memory systeni model 


* 


10 


11 void mem init dnt size) 


12 


/* models available VM */ 

/* heap is initially empty */ 
i* max VM address for heap */ 


(char *)Malloc(size); 
mem_start_t-rk; 

mem—start—brk + size; 


13 


mem_start brk 
mem„brk 

mem max addr 




14 




1 £； 


16 


18 


mem^sbrk - simple model of the the sbrk function. Extends the heap 

by incr bytes and returns the start address of the new area. In 

this model, the heap cannot be shrunk. 


19 


* 


氺 


20 




21 


22 


23 void + meri_sbrk{ inc incr) 

24 ( 


25 


char + old feck 


mem brk ； 




26 


27 


if ( (iricr < 0 ) II ( (mem^brk 

E-VOMEM ? 

return (void *}- 1； 


mem _ max _ addi :) ) ■: 


+ mcr > 


28 


errno 




29 


30 


31 


mem brk 


incr ； 

return old brk; 


32 


33 


code/vm/memlib,c 


10,43 memlib . c : 存储器系统模型 

mem_init 函数将堆可用的虚拟存储器模型化为一个人的、双字对齐的字 W 数组。在 
menMtart_brk 和 mem^brk 之间的字节表小 lA 分配的虚拟冇储器。 mem,brk 之后的字订表不未分配 
的虚拟冇储器。分配器通过调用 memjbrk 函数来请求额外的堆存储器，这个函数和系统的 sbrfc 函 
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数的接 U 相同 t 而 R. 语义也相同，除了它会拒绝收缩堆的请求。 

分配器包含在一个源文件中 （ma]]c>c, c )， 用户可以编译和链接这个源文件到他们的应用之中 
分配器输出 H 个函数到应用程序 ： 


int mm_init tvoidi ; 

void (size_t size) 

void tnm_free {void *t>p); 


init 函数初始化分配器，如果成功就返回 o t 否则就返回 -1 D 
4它彳 N 对应的系统响数有相同的接口和语义。分 配器使 用如图 10.41 所小的块格式。最小块的大小 
为16字节。空闲链表组织成为一个隐式空闲链表，具存如 10.44 所示的恒定形式 （invariant form)。 


malloc 


free 闲数 


mm 


mm 


mm 


■ 乎 A ■块 


ft 通块 i 


# 通块 2 


ff 通块 


结尾块 hdi ： 


n ^ m- 


堆的 


ftr {VI 


hdr 


;C 齐 


起始 


位置 


static chir ^ h*ap llfltp 


图 10.44 隐式空闲链表的恒定形式 

第一个宁是一个双字边界对齐的不使用的填充字。填茫后面紧跟着-个特殊的序言块 Cprologue 
block ), 这是〜个8字节的 G 分配块，只由一个头部和…个脚部组成。亨言块是在初始化时创建的, 

并且永不释放。在 序言块 后紧跟的是零个或者多个由 malloc 或者 free 调用创建的普通块。堆总是以 
一个特殊的结尾块 （epilogue block ) 来结束，这个块是一个大小为零的己分配块，只由一个头部组 
成。序言块和结尾块是 -种消 除合井时边界条件的技巧。分配器使用-个筚独的私有（静态）全局 
变量 （ heapjistp ), 它总是指向序言块。（作力个小优化，我们可以让它措向 h —个块，啲小是 S 
个序言块。） 

操作空闲链表的基本常敗和宏 

图 10.45 展小/一些我们在分配器编码巾将要使用的基本常数。 


code/vm/maiioc\ c 


卜 Basic consiants ajid macros * / 

件 define WSIZE 4 

ffdefine DSIZE 8 

#define CHUNKSIZK (1<<12) 
^define OVERHEAD 8 


J 


word size (bytes) */ 
doubleword size (bytes) 

/* initial heap size (bytes) */ 

/* overhead of header and footer (bytes) */ 


4 


5 


6 


ttdef ine MAX (x, y) ( (x) 


( y )? ( x ) : ( y )) 


> 


9 


/* Pack a size and allocated bit into a word */ 

1C ^define PACK(size ； alloc) ((size) I (alloc)) 


11 


12 /* Read and write a word at address p + / 
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13 ^define GET(pi 

14 扣 define PUT(p P val} 


(Msift *) !p)) 

{* [size_t *) (p) 


(val)) 


lb 


16 /* Read the size and allocated fields from addre&s p 

17 #define GET„SIZE(p) 

16 ^define GET_ALLOC(p} 


(GET(p) & - 0 x 7 ] 

(GET ⑻ & 0 x 1 ) 


19 


2 C /* Given block ptr bp, compute address of its header and footer */ 

21 #define HDKP(bp) 

22 #define FTKP(bp) 


[(char *)(bp) - WSIZE) 

((char *!(bp) + GET_SIZE(HDRP(bp)) - DSIZE) 


ipJ -J 


24 /* Given block ptr bp, compute address of next and previous blocks 


#define NEXT^BLKP(bp] ((char *)(bp) + GET_S12E{[(char (bp) - WSIZEl)) 
#define PREV_BLKP(bp} { (char *)(bp) - GET_SIZE(((char *}(bp) - DSIZE))) 


25 


26 


codefym/malbc. c 


图 10.45 操作空闲链表的基本常数和宏 

第2〜5行定义了一些基本的大小常数：字的大小 （ WSIZE ) 和双字的大小 CDSIZE ), 初始空 
闲块的火小和扩展堆时的默认大小 （ CHUNKSIZE ), 以及头部和脚部占用的开销字节数量 
( OVERHEAD ). 

在空闲链表中操作头部和脚部坷能是很麻烦的，因为它要求大量使用强制类型转涣和指针运 
算。因此，我们发现定义一个小的宏的集合来访问和遍历空闲链表是很有帮助的（第10〜26行） & 
PACK 宏（第10行）将大小和已分 K 位结合起来，并返回-个值，町以把它存放在头部或者脚部 


屮。 


GET 宏（第〗3行）读取和返回参数 p 引用的字。这里强制类型转换是至关重要的。参数 p 典 
型地是一个 （viod *) 指针，不可以直接进行间接引用。类似地， PUT 宏（第14行）将 va】 存放在 
参数 p 指向的字中 。 

GET _ SIZE 和 GETJLLOC 宏（第17〜18行）从地址 p 处的头部或者脚部，分别返回大小和 
巳分配位。剩下的宏是对 块指针 (block pointer ,用 bp 表示）的操作，块指针指向第一个有效载荷 
字节9给定一个块指针 bp , HDRP 和 FTRP 宏（第21〜22行）分别返回指向这个块的头部和脚部 
的指针。 NEXT _ BLKP 和 PREV _ BLKP 宏（第25〜26行）分别返回指向后面的块和前面的块的块 


指针 


可以以多种方式来编辑宏，以操作空闲链表。比如，给定一个指向当前块的指针 bp t 我们可以 
使用 K 面的代码行来确定存储器中后面的块的人小： 


size — 匕 size = GET_SIZE[HDRP(NEXT_BLKP(bp})) ; 


创建初始空闲链表 


malloc 或者 mmjree 之前，应用必须通过调用 mmjnit 函数来初始化堆 C 参见图 


在调用 


mm 


1046), 


code/vm/malloc^ 


int min_init ( void ) 
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产 deate the initial empty heap V 

if ((heap_li^tp = 

return - 1 : 


Kfcrkt4*WSlZK)) 


MULL) 


Tnem 


/* alignment padding */ 


PUT(heap_li^tp H 0 )； 


6 


PUT (heap^l istp+WSIZE, PACK (OVERHEAD, D) ? prologue header */ 
FUT(heap_iistp+DSlZF] f PACK (OVERHEAD, 1) ) ; / f prologue footer 

产 epilogue header *! 


8 


PUT(heap_listp+WS!2EfDSlZE, PACK(CL 1J); 
heap_listp 


9 


10 


DSIZE; 


- 1 - 


11 


/* Extend the empty heap with a free block of CHUNKSIZE bytes */ 

i £ (ext end_heap (CHUNKS IZ E ： / WSIZ E ； 

return - 1; 
return 3; 


12 


NULL) 


13 


™«■ 


14 


15 


16 ) 


— -■ code/vm/fmHocc 


图 10.46 mmjnit : 创建一个带初姶空闲块的堆 

inil 函数从存储器系统得到4个字，并将它们初始化，从而创建个空的夺闲链表（第4〜 
]0行)。然后它调用 extemUieap 函数（图 10.47), 这个函数将堆扩展 CHUNKSIZE 字 L 并 H . 创建 
初始的空闲块。此刻，分配器己初始化了，并 . R 准备好接受宋自应用的分配和释放请求。 


mm 


code/vm/maUoc.c 


static void *extend_heap(size_t words) 


char ^bp; 

size t size; 


/* Allocate an even number of words to maintain alignment 

words % 2) ? (words+l) * WSIZE : words 

if [(int)(bp - mem_Kbrk(size)] < 0 } 

return NULL; 


WS 丄 SE: 


size 


a 


10 


/* Initialize free block header/footer and the epilogue header 

PUT(HDRP{bp} f PACK (Size, 0)); 

PUT(FTRP(bp) F ?ACK(size, 0}); 
PUT(ffDPP(NOT_BLKP(bp) } , PACK ( 0 f 1)); 


11 


/* free block header */ 

/* free block footer * / 

/* new epilogue header */ 


12 


13 


14 


15 


/* Coalesce if the previous block was free */ 

reLurn coalescefbp'; 


,6 


17 


18 


code/vjn/matloc.c 


图 10 , 47 extend ^ heap : 用一个新的空闲块扩展堆 
extetid,he a p 阐数会在两种不问的环境中被 调用： ①与堆被初始化时：② 3 


malloc 不能找 


mm 
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到个合适的匹配块时。为了保持对齐， e^emLheap 将请求大小向上舍入为最接近的2字 （8 字节) 

的倍数，然后向存储器系统谓求额外的堆空间（第7〜9行） 

extend^heap 闲数的剩余部分（第12〜17行）在某些方面是很细微的。堆开始于一个双字对齐 
的边界，并且每次对 extend.heap 的调用都返 一 个块，该块的人小是双字的整数倍。因此，对 
mem.sbrk 的 每次调 用都返问…个双字对齐的存储器组块 （chimk 乂紧跟在结尾块的头部后面 D 这个 
头剖变成了新的空闲块的头部（第12行)，并且这个组块 （dumk) 的 M 后一个字变成了新的结尾块 
的头部（第14行)。最后，在很町能出现的前一个堆以一个空闲块结束的情况中，我们调 ffl coalesce 
函数来合并两个空闲块，并返回指向合并后的块的块指针（第17行)。 


0 


释放和合并块 

应用通过调用 imn_free 函数（图10.48)，来释放一个以前分配的块，这个函数释 放所清 求的块 
Cbp), 然后使用 10.9.11 节中描述的边界标记合并技术将之与邻接的空闲块合并起来。 


a>de/vm/mailoc. c 


void mn_f]：ee (void 


size_t size = GET—SIZE(HDRP(bp)); 


5 


PUTfHDRP(bp) ; PACK(size, 0)); 
PUT(FTRP(bp}, PACK{size r 0)}; 
coalesce(bp)? 


10 static void ^coalesce(void *bp) 


ai 


12 


size_t prev_dlloc = GET_ALLOC(FTRP(PREV^BLKP(bp))) 
size_t next_alloc = GET_ALLOC[HDHP(NEXT_BLKP(bp))) 

size t size 


13 


14 


GET_5IZE(HDRP(bp )); 


15 


16 


i E (prev_alloc && next_alloc) { 

return bp; 


/ 亭 Case 1 V 


17 


18 


19 


20 


else if (prev_alloc ^ Inext_alloc} { 

GET_SIZR(HDRP(NEXT_BLKP(bp))); 

PUT(HDRP(bp) f PACK ： Size, 3 ))； 
PUT(FTRP(bp), PACK ； size f 0)); 
return(bp )； 


I * Case 2 V 


21 


size + = 


22 


23 


24 


25 


26 


2 ； 


else if {Iprev_alloc ^ next 一 alloc) { 

aise +; GET_SIZE(HDRP(PREV_BLKP(bpM); 
PUT(FTRP[bp), PACK ； size, 0 ))； 

PUT(HDRP1PREV_BLKP!bp)), PACK(size, 0)) 


产 Case 3 + / 


28 


29 


30 


■ 
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31 


return(PREV_ELKP(bp!1; 


32 


33 


1 * Case 4 *7 


34 


else { 

size += GET 一 SlZt(HDRP(PREV-BLKPfbp):) + 

GET_3IZE(FTRP(NEXT_BL ： <P(bp))); 
PUT(HDRP{PREV_BLKP{bp)), PACK I size, 0 ))； 

PUT {FTRP (!JEXT_BLKP (bp) ) , PACK (size, 0 )); 
reL^rn(PREV_ELKP{bp ))； 


35 


36 


37 




39 


40 


41 } 


codeA f m/malhc.c 


图〗 0.48 mmJree: 释放〜个块，并使用边界标记合并将之与 

所有的邻接空闲块在常数时间内合并起来 

coalesce 凼数中的代码是图10+42屮勾画的四种情况的-种简争汽接的实现"式。这択也有鸣细 
微的方囟。我们选抒的空闲链表格式——它的序=块和结尾块总是标记为己分配—— 允仵我 们忽略 
潜在的麻烦边羿情况，也就是，请求块 bp 在堆的起始处或者是在堆的结尾处，如果没有这些特殊块 f 
代码将混乱得多，更加容易出错，井且更慢，因为我们将不得不在每次释放请求时，都去检查这些 

并不常见的边界怡况。 

分 K 块 

_ 个应用通过调用 mm_malloc 函数（图 10.49) 来向存储器请求大小为 size 字节的块。 在检查 
完请求的真假之后 t 第8〜9行)，分配器必须调整请求块的大小，从而为头部和脚部留有空间，汴 
满足双字对齐要求。第12〜13行强制 f 最小块大小是】6字 t: 8字节 （ DSIZE ) 用来满足对齐要 
求， 而另外8个 （ OVERHEAD) 用来放头部和脚部。讨于超过8字节的请求（第15行)，-般的规 
则是加上开销字 t 然后向上舍入到最接近的 S 的整数倍 （DSIZEh 


cod^/vm/matloc.c 


void ^rmi_malloc (yise_t size) 


2 


adjusted block size */ 

/* amount to extend heap if no fit *1 


size 


asize; 

size_L extend^ize; 
cha.i *bp ； 


产 Ignore spurious requests 

it (size 

return NULL ； 


()) 


10 


产 Adjust block size to include overhead and alignment reqs, */ 

if (yize 

asi 


2 


DSIZE ； 

DSIZE + OVERHEAD 


13 


l^i 


else 


((size 


DSIZE 


+ 


(OVERHEAD) 十 （ DSlZi^l)) / DSISE); 


asise 


16 


17 


/* Search the free list for a fit */ 
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18 


if ((bp 


i ind_fit(asize)) ! - NULL) { 
place(bp P asize) ? 
return bp; 


19 


20 


22 


/* No fit found. Get more memory and place Ul€ block */ 

extendsize 二 MAXlasize^HUNKSIZE }； 

if ((bp 


23 


24 


25 


extend_tieap { extendslze / WSIZE } 1 


NULL ) 




26 


return NULL ； 
place(bp f asize )； 

return bp; 


27 


2S 


29 


code/vm/malloc + c 


图 10.49 mm . matloc : 从空闲链表分配一个块 

&分配器调整了请求的大小，它就会搜索空闲链表，寻找一个合适的空闲块（第18行夂如 
果有合适的，那么分配器就放 t 这个请求块，并有选择地分割出多余部分（第19行)，然后返回新 
分配块的地址〔第20行)。 

如果分配器不能够发现一个匹配的块，那么就用一个新的空闲块来扩展堆（第24〜26行)，把 
请求块放置在这个新的空闲块甩，有选择地分割这个块（第27行)，然后返回一个指针，指向这个 

新分配的块（第 2 S 行乂 


蘇习顯 10.8 

为 KL 9.12 节中描迷的简单分配器实现一个 find Jit 函数 a 


static void *find_fit(size_t asize) 


你的解答应该对隐式空闲链表执行首次适配搜索, 


琢习鼉 10.9 

为示例的分配器编写一个 place 函教 


static void place(void *bp, size_t asize) 


你的解答应该将请求块放置在空闲块的起始位置，只有当剩余部分的大小等于或者超出最小決 
的大小时，才进行分釗. 


10.9.13 显式空闲链表 

隐式空闲链表为我们提供了 -种简单的介绍一些基本分配器概念的方法。然而，因为块分配1 

堆块的总数早.线性关系，所以对 f 通用的分配器 f 隐式空闲链表是不适合的（尽管对于堆块数景预 
先就知道是很小的特殊的分配器来说，它是比较好的)。 

一种吏好的方法是将空闲块组织为某种形式的显式数据结构因为根据定义，程序是+需要一 
个空闲块的主体，所以实现这个数据结构的指针可以存放在这些空闲块的主体哏面。例如，堆可以 
组织成-个双向空闲链表，在每个空闲块中，都包含一个 pred (祖先）和 

10.50 所小。 


(后继）指针，如图 


SUCC 


31 


决大小 


a/f 久部 


pred (祖先) 


(后继) 


SUCC 


A 效软荷 


原来的 ft 效载荷 


填充（可选) 


填充 < 可选) 


块人小 


® 部 


块人小 


a/f 航 


a/f 


( a ) 分配决 


( b ) 空闲块 

10.50 使用双向空闲链表的堆块的格式 

使用双 M 链表 T 而不是隐式空闲链表，使旨次适配的分配时间从块总数的线性时间减少到 f 空 
闲块数 S 的线时间。不过，释放，个块的时间可以是线件的，也可能是个常数，这取决于我们在 
空闲链表屮对块棑序所选择的策略。 

种力法是用后进先出 （LIFO) 的顺序维护链灰，将新释放的块放置在链表的开始处。使用 
LIFO 的顺序和昏次适配的放置策略，分配器会最先检查最近使用过的块。在这种情况下，释放 - 个 
块刊以在常数时间内完成。如果 使用了 边界标那么合并也可以在常数时间内完成。 

另，种方法是按照地址顺序来维护链表，其中链表中每个块的地址都小于它祖先的地址。在这 
种情况下，释放一个块耑要线性时间的搜索，来定位合适的祖先。平衡点在？，按照地址排序的首 
次适配比 LIFO 村序的 泞次适 配宵更高的疗储器利用率，接近最伴适配的利用率。 

- 般而显式链表的缺点是空闲块必须足够人，以包含所有需要的指针，以及头部和可能的 
脚部。这就导致 f 更大的最小块大小，也潜在地提高了内部碎片的程度。 

10.9.14 分离的空闲链表 

就像我们己鈐看到的，•个使用¥向宁闲块链衷的分 fid 器需要与宁闲块数量成线性关系的时间 
来分 flti 块。一种流行的减少分配时间的力法，通常称为分离存储 (segregated storage ) T 维护多个空 
W 链表，其中毎个链表中的块有大致相等的人小 t 

一般的思路是将所有 W 能的块人小分成•些等价类，也叫做大小类 （sizeclass〕。 有很多种方式 
农 A 义大小类。例如，我们可以根据2的幂宋划分块大小： 

{1},|2}, (3,4), |5 8}/' {1025-2048} ， {2049-40% U4097 «} 

成#我们叶以将小的块分派到它们 Qd 的大小类里，而将大块按照2的幂分类 ： 

(U, {2}, {3}/", 110231，{1024}，…，{1025-20481， 

f 2049-4096 K {4097 -叫 

分配器维护若一个空闲链表数组，每个大小类一个空闲链表，按照大小的升序排列 t 3分配器 

::段一个大小为II的块时，它就搜索相应的空闲链表，如果它不能找到合适的块芍之匹配，它就搜 
索下一个链表，以此类推。 
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有关动态存储分配的文献描述了很多种分离存储方法，主要的区别在于它们如何定义大小类， 

何时进行合并，何时向操作系统请求额外的堆存储器，是否允许分割，等等。为了使你火致了解有 
哪些可能性 1 我们会描述两种基本的方法 简单分离存储 (simple segregated storage ) 和分离迨配 

C segregated fit ) ^ 

简单分离存傭 

使用简单分离存储，每个大小类的空闲链表包含大小相等的块，每个块的大小就是这个大小类 
中最大元素的大小。例如.如果某个大小类定义为 {1132} f 那么这个类的空闲链表全由人小为32 
的块组成 6 

为了分配-•个给定大小的块，我们检査相应的$闲链表 。 如果链表非空，我们简笮地分配其中 
第一块的全部。空闲块是不会分割以满足分配请求的 。 如果链表为空，分配器就向操作系统请求一 
个固定大小的额外存储器组块（典型地是页面大小的整数倍)，将这个组块 ( chunk ) 分成大小相等 

的块，并将这些块链接起来形成新的空闲链表。要释放…个块，分配器只要简单地将这个块插入到 
相应的空闲链表的前部。 

这种简单方法有许多优点。 分配和 释放块都是很快的常数时间操作。而且，每个组块 ( chunk ) 
中都是大小相等的块，不分割，不合并 f 这意味着每个块只有很少的存储器开销。既然每个组块只 
冇大小相同的块，那么一个己分配块的大小就可以从它的地址中推断出来。因为没有合并，所以己 
分配块的头部就不1要一个己分配/空闲标记。因此已分配块不需要头部，同时因为没有合并，它们 
也不需要脚部。 M 为分配和释放操作都是在空闲链表的起始处操作，所以链农 K 浠要是单 | bj 的，而 
不用是双向的了。关键点在于，惟一在任何块中都需要的宇段是每个空闲块中的一个字的 siicc 指针， 
因此最小块大小就是一个字 & 

一个显著的缺点是，简单分离存储拫容易造成内部和外部碎片6因为空闲块是不会被分割的， 

所以可能会造成内部碎片，更糟的是，某些引用模式会引起极多的外部碎片，因为是不会合并空闲 
块的(练习题 10.10), 

研究者提出了一神粗糙的合并形式來对付外部碎片问题。分配器记录操作系统返回的每个#储 
器组块 ( chunk ) 中的空闲块的数量无论何时，如果有一个组块完全由空闲块组成，那么分配器就 
从它的当前大小类中删除这个组块，使得它对其他大小类 可用。 

练功 S 10,10 

描述一个在基于简单分离存储的分配器中会导致严重外部碎片的引用模式， 

分离适配 

使用这种方法，分配器维护着一个空闲链表的数组。每个空闲链表是和一个大小类相关联的， 
并 fi 被组织成某种类型的 I 式或隐式链表。每个链表包舍潜在的大小不同的块，这些块的人小是大 
小类的成员。有许多种不同的分离适配分配器。这1,我们描述了一种简筚的版本。 

为了分配一个块，我们必须确定请求的大小类，并 a 对适当的空闲链表做旨次适紀，査找一个 
合适的块。如果我们找到/一个，那么我们（可选地）分割它，并将剩余的部分插入到适当的空闲 
链表中。如杲我们找不到合适的块，那么我们就搜索 y —个更大的大小类的空闲链表 & 如此重复， 
直到找到一个合适 的块。 如果没有空闲链表中有合适的块，那么我们就向操作系统请求额外的堆存 
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储器，从这个新的堆存储器中分配出一个块，将剩佘的部分放置在最大的大小类中。要释放个块， 

我 们执行 合沖，并将钴果放置到和应的空闲链表中。 

分离适 Bd 方祛是一种常见的选择， C 标准库屮提供的 GNU malloc 包就是采用的这种方法，因 
为这种方法既快速，对存储器的使用也很有效率。搜索时间减少了，因力搜索被限制在堆的某个部 
分， [「 tM 、 足牿个靖。4储器利用率得到 f 改善， 因为有一个有趣的 事实： 对分离空闲链表的简单的 
旨次适配搜索相3 f 对整个堆的最佳适配搜索。 

伙伴系统 

伙伴系统 （huddy system ) 是分离匹配的一种特例， 其中每 个大小类都是2的 基本的 思路 
是假设一个堆的大小为 2 m 个字，我们为每个块人小 2 A 维护一个分离空闲链表，其中请 
求块人小向上舍入到最接近的2的幂。 M 开始时，只有一个人小为 2 m 个字的空闲块= 

为了 分配-个大 小为公 的块，我们找到第一个可用的、大小为2的块，其巾如果 ）= 
k ， 那么我们就完成了。否则，我们递归地二分这个块， 肖到片 JL 当我们进行这样的分割时，每个 
剩卜的半块（也叫做伙伴 )， 被放置在相应的空闲链表中。要释放一个人小为 2" 的块，我们继续合 
并空闲的伙伴。3我们遇到一个己分配的伙伴时，我们就停 It . 合并。 

关于伙伴系统的 - 个关键事实是，给定地址和块的大小，很容易 ij 算出它的伙伴的地址 t 例如, 
-个块，人小为 32 字节，地 址为： 


xxx-^xG000(j 


t 的伙伴的地址 ; j 


xxx--xlOOnO 


换句话说， j 个块的地址和它的伙伴只有-位不相同。 

伙仃系统分配器的主要优点是它的快速褸索和怏速合并。主要缺点是要求块大小为2的幂 nj 能 
#致显著的内部碎片。因此，伙作系统分配器不适合通用的的丄作负载。然 C 对 f 某些4应用 
相关的 I ：作负载，苠屮块人小预先知道是2的幂，伙伴系统分配器就很有吸引力了。 


10.10 垃圾收集 

/]: 诸如 C malloc 包这样的 M 式分配器中，应用通过调用 malbc 和 fra 来分配和释放堆块.应 
用要负责释放所乇不冉需要的巴分配块6 

末能释放己 分屺的 块是一种常见的编程错误。例如，考虑 F 面的 C 哟数，作为! It 理的一部分， 
它分 fld —块临时存储： 


void garbage() 


int 


int *) MaIloc (15213) 


return ； 产 array p is garbage at this point */ 


K 为程序不再需要 p， 所以在 garbage 返回前应该释放 p。 不幸的是，程序员忘了释放这个块 & 
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它在程序的生命周期内都保持为己分配状态，毫无必要地占用着本来可以用来满足后 Iff 分配请求的 
堆空间。 


垃圾收集器 C garbage collector ) 是一种动态存储分配器，它自动籽放程序不再需耍的已分配块。 
这些块被称为垃圾 tgarbage ) ,因此术语就称之为垃圾收集器，行动回收堆存储的过程叫做垃圾收 
集 (garbage collection ), 在一个支持垃圾收集的系统中，应用显式分配堆块，但是从不显小地释放 
它们。在 C 程序的上下文中，应用调用 malloc ， 但是从不调用 free 。 収而代之的是，垃圾收集器定 

期识别垃圾块，并相应地调用&，将这些块放回到空闲链表中。 

垃圾收集吋以追溯到 John McCarthy 在20世纪60年代早期在 MU 幵发的 Lisp 系统。它是诸如 
Java 、 ML 、 Perl 和] Mathematica 等现代语言系统的外重要部分，而且它仍然是-个重要的研究领 

域。有关文献描述了大量的垃圾收集方法，其数量令人吃惊。我们的讨论 局限亍 McCarthy 独创的 
Mark & Swe&p (标记&清除）算法，这个算法很有趣，因为它可以建立在己存在的 malloc 包的基础 
之上 ， 为 C 和 C ++ 程序提供垃圾收集。 


10.10.1 垃圾收集器的基本要素 

垃圾收集器将存储器视为-张有向可达图 （reachability graph), 其形式如图 10.5) 所示□该图 
的节点被分成一组根节点 （root node) 和一组堆节点 （heap node) ^每个堆订点对应于 i# 中的…个己 

分配块6有向边 p _ q 意味着块 p 中的某个位置指向块 q 中的某个位置。根节点对应于这样■种不 
在堆中的位置，它们中包含指向堆中的指针。这些位置可以是寄存器，栈里的变量，或者是虚拟存 
储器中读写数据区域内的全局变章， 


根节点 


堆节戍 


(3 可迗的 

不可达的 
(ti 圾） 


0 


图 10.51 垃圾收集器将存储器视为一张有向图 

当存在一条从任意根节点出发井到达 p 的有向路径时，我们说-个节点 p 是可达 ( reachable). 
在任何时刻，和垃圾相对应的不可达节点是不能被应用再次使用的，垃圾收集器的角色是维护可达 
图的某种表示，并通过释放不可迖节点并将它们返回给空闲链表，来定期地回收它们。 

像 ML 和 Java 这样的语 s 的垃圾收集器，对应用如何创建和使用指针有很严格的拧制，能够维 
护可达图的一种精确的表不，因此也就能够回收所有垃圾，然而，诸如 C 和0+这样的语 S 的收集 
器通常不能维持可达图的精确表示6这样的收集器也叫彳玫保守 的垃圾 收集器 (conservative garbage 
collector) a 从某种意义上来说它们是保守的 f 也就是，每个吋达块都被正确地标£为可达了，而一 
些不可迖节点却可能被错误地标记为可达。 

收集器可以按需提供它们的服务，或者它们可以作为一个和应用并行的独立线程，不断地更新 
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可达图和回收垃圾。例如，考虑我们如何为 C 程序将一个保守的收集器加入到己存在的 maHoc 包 
如[?1 10.52 所示。 


动态存储分 K 器 


ft 守的 W 圾 

收亀埔 


cmm - 


malloc {} 


f ree () 


图 10,52 将一个保守的垃圾收集器加人到一个 C 的 moitac 包中 

无论 H 时应用需要堆空间时，它都会用通常的方式调用 malloc 。 如果 nuilloc 找不到一个合适的 
空闲块，那么它就调用垃圾收集器，希望能够回收一些垃圾到空闲链忐。收集器识别出垃圾块，并 
通过调用 free 凼数将它们返回给堆。关键的想法是收集器代替应用去调用 free 。 当对收集器的调用 
返 ㈣ 时， malloc 审试，试图发现一个合适的空闲块，如果还是失败了，那么它 就会闵 操作系统要求 
额外的存储器 5 最后， maltoc 返回一个指向请求决的指针（如果成功）或者返回一个空指计（如果 
不成功 


10.10.2 Mark&Sweep 垃圾收集器 

Mark&Sweep 垃圾收集器由标记 （mark) 阶段和清除 （sweep) 阶段组成。标记阶段标 E 出根节 
点的所存可込的和 Li 分 ffi 的后继，而后面的清除阶段释放每个未被标记的己分 配块。典型地 ，块头 
部中空闲的低位中的一位用来表示这个块是否被标记了。 

我们对 Mark&Sweep 的描述将假设使用下列函数，其中 ptr 定义为 typedef char ^ptr； 

• ptr isPtr (ptr p)r 如果 p 指向一个 d 分配块中的某个字，那么就返回外指 H 这个块的起始 

位置的指针 L 否则返 [y]NULL s 

• intblockMarked(ptr b)： 如果己经标记了块 b， 那么就返冋 true。 

• iiU block Allocated (ptr b)： 如果块 b 是已分配的，那么就返回 ime。 

• void markB)ock(ptrb)； 标记块 b。 

• int length(b ) ; 返冋块 b 的字艮 （包括头部） 

• void unmarkBlock(ptr b)r 将块 b 的状态由已标 ifl 的改为末标记的。 

• ptr neJCtBlock(ptrb)： 返回堆巾块 b 的后继。 

标记阶段为每个根订点调用一次图10+53 (a ) 所小的 mark 函数，如果 p 不指 |nj- ■个 l ! 分配扑 
让米标记的堆决， mark 函数就立即返回，否则，它就标记这个块，并对块中的每个字递 IH 地调用它 
自己，每次对 mark 函数的调用都标记某 个根仃 点的所有未标记并迁可达的后继节点，办:标 G 阶段 
的末尾，任何未 标记的 己分配块都被认定为是不可达的，昆垃圾，可以在清除阶段凹收。 

清除阶段是对阁 10.53 (b ) 所示的 swe ^ p 函数的■次调用。 sweep 函数在堆中每个块上 反复循 
环，释放它所遇到的所冇未标记的己分配块（也就是垃圾)。 

void mark(ptr p) { 

i.= ( (b = isPtr (p) ) == HULL) 
return ； 

if fb]ockMarked(b)) 


>3 


void sweep(ptr b, p:r end)( 

while (be er\&) { 

if (blcckMarked(fc)) 
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uninarkElock: (b); 
else i£ (blockAllocatedib)) 

free [b]; 

b 二 nextBlock(b )； 


return; 

m ^ rkBlock ( b )； 
lsn - length(b )； 

for I, i = 0; I < len ； i + +) 

mark(b[i ])； 

return ； 


return; 


10,53 mark 和 sweep 函数的伪代码 

图 10.54 展小了一个小堆的 Mark&Sweep 的图形化解释。块边界用粗线条表示，每个方块对应 
于存储器中的-个字。每个块冇一个字的头部，要么是标记了的，要么是未标记的。 




I^J 


标记角 lr : 


朱标 fi 的块头部 


标记后: 


标记了的块头部 


淸除 


10.54 标记和清除示例 


"C. « 


注意这个示例中的箭头表示存储器引用> 是空闲链表指针: ■ 


初始 情况卜 ，图 10.54 中的堆由六个已分配块组成，其中每个块都是未分配的。第3块包含一 
个指向第1块的指针。第4块包含指向第3块和第6块的指针。根指向第4 块， 在标记阶段之后， 
第1块、第3块、第4块和第6块被做了标记，因为它们是从裉节点可达的。第2块和第5块是未 
标记的，因为它们是不可达的。在清除阶段之后，这两个不可达块被 H 收到空闲链表。 

10.10.3 C 程序的保守 Mark&Sweep 

Mark&Sweep 对 C 程序的垃圾收集是一种合适的方法，因为它可以就地工作，而不 f 要移动仟 
何块。 然而， C 语 f 为 isPtr 函数的实现造成了一些有趣的挑战。 

第一， C 不会用任何类型信息来标记存储器位置。因此，对 isPtr 没有一种明显的方式来判断它 
的输入参数 p 是不昆一个指针。第二，即使我们知道 p 是一个指针，对 isPtr 也没有明显的方式來判 
断 p 是否指向…个己分配块的有效载荷中的某个位置 6 

对后-•问题的解决方法是将已分配块集合维护成-棵平衡二叉树 f 这棵树保持着这样 个属性 ; 
左子树中的所有块都放在较小的地址处，而右子树中的所有块都放在较大的地址处如图10,55所 
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小，这就要求每个 ii 分配块的头部里有两个附加字段 （left 和 right)。 每个 T 段指向某个已分配块的 


头部 


C 分配块义部 


10,55 —棵已分配块的平衡树中的左右指针 

isPtitptrp) 凼数用树来执行对已分配块的一分查找。在每一步中，它依賴于块头部中的大小字段， 
來判断 p 楚否落在这个块的范围之内。 

从某神竞义上来说，乎衡树方法是正确的，例如它保证会标 ta 所有从根 w 点可込的&点。这足 
一个必要的怳 iiL 因为应用稈序 的用户 当然不会喜欢把它们的已分配块过早地返冋给宁闲链表。然 
而，这种方法从某种意义二而言乂是保守的，因为它可能不正确地标 fi 实际〖:不 nj 达的块， 并因此 
不能释放某些垃圾 D 虽然这并+彩响应用程宇的正确性，但是这可能导致不必要的外部碎片。 

C 稃序的 Mark&Sweep 收集器必须是保守的，其根本原因是 C 语言不会 Hi 类型信息来标记冇储 
器位I因此，像 ini 或者 float 这样的标童吋以伪装成 指针。 例如，假设某个 嘢达的 已分配块在它 
的冇效载荷屮包含一个 int, 其笮碰 巧对应于某个其他己分配块 b 的有效载荷中的一个地址6对收集 
器而是没有办法推断出这个数据实际上是 im 而不是指针。因此.分配器必须保守地将块 h 标 
记为可込，仏管爭实上它叶能是不是吋达的， 
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10.11 C 程序中常见的与存储器有关的错误 

对 c 程序员央说，筲理和 嗖用虚 拟存储器可能是个困难的、容易出错的任务，储器冇关的 
错误属于那些 M 令人惊恐的错误，因为它们经常在时间和空间匕都在 Sb 错误源一段趿离之后，/1_ 
灰现山来。将错误的数据编写到错误的位置，你的程序可能在最终大败之前运行了好儿个小时， 

使程序中 [r. 的位 t 距离错误的位置己经拫远了，我们用一些常见的勻存储雅有关错误的讨论，宋结 
电我们对虚拟存储器的1、1论。 


10.11,1 间接引用坏指针 

fE 如我们在 10.7+2 彳 t 中学到的，在进程的虚拟地址空间中有较大的洞，没有映射到任何有意义的 
数据。如采我们 试图 间接引用一个指向这些洞的指针，那么操作系统就会以段异常终 ih 我们的程序. 
WH , 虚拟冇储器的某些区域楚只读的。试图写这些 K 域将造成以保护异常终止这个程序。 

问接引用坏指针的个 常见# 例是 迕典的 scanf 错误。假设我们想要使用 scanf 从 sldin 读一个 
整数 到一个变暈。做这件事怡 止确的 方法是 传递给 scanf --个格式串和 变鼋的 地址： 


scan£ { ^d 1 ' H S^vai) 


然而，对于 C 稈序员初学者而=(对有经验者也是如此很容易传递 val 的内容，而不是它 


的 地址: 


scanf ( 11 %d 11 , val) 
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在这种情况下， scanf 将把 val 的内容解释为一个地址，并试图将一个字写到这个位置。在最好 
的情况下，程序立即以异常终止 D 在最糟糕的情况下， va! 的内容对应于虚拟存储器的某个合法的读 
/写区域，于是我们就覆蛊了存储器，这通常会在相刍以后造成灾难性的，令人困惑的后果。 


10.11.2 读未初始化的存储器 

虽然 .bss 存储器位置（诸如未初始化的全周 C 变董）总是被加载器初始化为零，但是对于堆存 
储器却井不是这样的， 一 个常见的错误就是假设堆存储器被初始化为零： 


/* return y = Ax 

int *matvec(int int 


1 


int n) 


int k y 


{ int + )MQlloc(n * sizeof(int)); 


for (l = 0; l < n; i++) 

£or {j ; 0; j < n; j++) 

y[i] += A[i] [j] * x[j] 


10 


11 


return y 


12 


在这 个小例 中，程序员 不正确 地假设向量 y 被初始化为零。正确的实现方式是在第8行和第9 
行之间将 y[i] 设置为零，或者使用 calloc. 

10.11.3 允许栈缓冲区溢出 

正如我们在 3.13 节中已经看到的，如果一个程序不检査输入串的大小就写入栈中的目标缓冲 
£，那么这个程序就会有缓冲区溢出错误 (buffet overflow bug). 例如，下面的函数就有缓冲区错 

误，因为 gets 函数拷贝一个任意长度的串到缓冲区。为了纠正这个错误，我们必须使用 fgels 函数, 
这个函数限制了输入串的大小： 


void bufover£low() 


char buf[64；; 


gets (bu£) ； /* here is the stack buffer overflow bug */ 
return; 


7 


10.11.4 假设指针和它们指向的对象是相同大小的 

种常见的错误是假设指向对象的指针和它们所指向的对象是相同大小的 




1 Create an nxm array + / 

int ++ makeArrayl (int n, int m) 


2 


4 


int i ； 

int **A 


[int 




)Malloc(n 


sizeof(int )) 




6 


for fi = 0 


n 


m 章 
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A[i] 


( 丄 nt * ) Malloc(m 


sizeof(int)); 


return A 


10 


这 1 的 H 的是创建一个由 n 个指计组成的数组，每个指针都指向一个包含 m 个 int 的数组。然 
而， 因为程序员在第5行将 sizeof(im ， 写成了 sizeofOi^ 代码实际创建的是一个 itu 的数组。这段 
代码只冇在 hit 和指向 int 的指针大小相冋的机器上运行良好。 

但是，如粜我们在像 Alpha 这样的机器上运行这段代码，其中指针大于 iiu, 那么第7行和第8 
行的循环将写到超出 A 数组未端的地方。因为这些字屮的一个很 nj 能是己分配块的边界标汜脚部， 
所以我们 SJ 能不会发现这个错误，有到我们在这个稈序的后曲很久释放这个块时，此时，分配器中 
的合并代码会戏剧性地灾败，而没有任何明显的原因，这是 “ 在远处起作用 （action at distance )” 的 
个 阴险小例 t 这类 “ 在远处起作用 ” 是与存储器有关的编程错误的典型情况 a 


10.11.5 造成错位错误 

错位 （ Off 七 y-otie) 错 误是另种 很常见的覆盖错误发生的原因 : 


/* Create an mm array */ 

raa"keArray2 ；int n f int m) 


int 


int 


[int 


女 + 


* -A 


)Malloc(n * sizeof (int)) ? 


A 




for (i = C; 

A[i}= 
return A; 


l <= n; i++} 

(int *)Malloc(m * sizeofiint)]; 


10 


这是前面一 K 中程序的另一个版本 6 这电我 们在第 5 行创建了个个兀素的指针数组，但是 

随后在第7行和第8行试图初始化这个数组的个元素，在这个过稃中覆盖了 A 数组后面的某个 
存储器。 


10.11.6 引用指针，而不是它所指向的对象 

如采我们不太注竞 C 操作符的优先级和结合性，我们就会错误地操作指针， [fij 不是期望操作指 

针所指向的对象。比如，考虑卜面的函数，其 H 的是删除一个有项的一 _ 叉堆甩的第一项，然后 
对剩 _ 卜 _ 的 ! ^ 76 - 1项重新建堆 D 


int *binheapDele"e (int **binheap, int 


size ) 


int Vpacket = binheap[0] 


binheap[0] = binheap 卜 size -]]; 

size--; 产 this should be (*size)- * / 

heapiEy(binheap 
return(packer )； 


size 


在第 3 行，的是减少 S i ze 指针指向的整数的值（也就是说是 (* S ize>--) 。 然而，因为一元 -- 
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和*运算符优先级相同，从右向左结合，所以第6行中的代码实际减少的是指针自 d 的值，而不是 
它所指向的整数的值。如果我们幸运地话，程序会立即失畋，但是更有可能发生的是，当程序在它 
执行过程的很后面产生出一个不正确的结果时，我们只能在那里抓破脑袋丫 . 这里的原则是如果你 
对优先级和结合性有疑问，就使用括号。比如 t 在第6行，我们可以清晰 地表不 我们的 H 的，使用 
表达式 (hizel—。 


10.11.7 误解指针运算 

另…种常见的错误是 忘记了 指针的算术操作是以它们指向的对象的大小为笮位来进行的，而& 
种大小单位并不一定是宇节。例如，下曲函数的 FI 的是扫描一个 hit 的数组 t 并返回一个指针，指 
向 val 的首次 出现： 


int *search (ini". *p P int val) 


while ( *p &：£： *p i: val) 

p += sizeof tint) ； f* should be p4 + + / 


return p 


然而 ， 因为每次循环时，第 4 行都把指针加了 4( 一 个整数的字节数)，函数就不正确地扫描数 
组中每4个整数 g 


10.11.8 引用不存在的变量 

没有太多经验的 C 程序员不理解栈的规则，有时会屮用不再合法的本地变覃，如卜列所示 


inL ^stackreE () 


int val; 


return &val 


这个函数返回 -- 个指针（比如说是 p )， 指向栈里的一个周部变量，然后弹出它的栈帧，尽管 p 
仍然指向一个合法的存储器地址，但是它已经不再指向 -- 个合法的变量了 4 当以后在程序中调用其 
他函数时，存储器将重用它们的梭帧 6 后来，如果程序分配某个值给乍，那么它可能实际1卜:在修改 
另一个函数的桟帧中的一个条 B , 从而带来潜在地灾难性的、令人困惑的后杲， 

10.11.9 引用空闲堆块中的数据 

一个相似的错误是引用已经被释放了的堆块中的数据。例如，考虑下面的示例，这个示例在第 
6行分配了一个整数数组X，在第12行先释放了块 x， 然后在第14行又引用了它。 


int *ljeapref ；int n F int m) 


2 


int i; 


int *x ^ *y 


(int * )K5illDc in * siseof i int)) ; 
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/ * … / 产 other calls to malloc and free go here V 


10 


free (x )； 


n 


/ = (int *)Malloc(m * sizeof(int)); 
for {l = 0 

y[i] = x[i ] 十 + ； /* oops! x[i] is a word in a free block *! 


12 


13 


i + + ^ 


14 


15 


16 


return y ； 


17 

I 


取决于在第 6 行和第 10 行发生的 malloc 和 free 的调用模式，当稈序在第14行引时，数 
组 xp 』 能是某个其他已分配堆块的一部分了，因此其内容被重写了。和其他许多与存储器有关的错 
误样， 这个错误 r 会在程序执行的 pm, 3我们注意到 y 中的值被破坏了时，I会显现出来。 


10.11.10 引起存储器泄漏 

存储器泄漏是缓慢、隐性的杀手，当程序员不小心忘记释放 d 分配块，而在堆甲.创疰了垃圾时, 
会发生这神问题。蚵如，下面的函数分配了 •个堆块X,然后不释放它就返冋 & 


void ] eak (int ri) 


int = (int *)Kalloc(n 


E(int) }； 


sizeo 


/* x is garbage at this point */ 


return ； 


如果 kak 姓常被 调用，那么渐渐地，堆里就会充满了垃圾，最糟糕的情况下，会占有整个虚拟 
地址空间。对于像守护进程和服务器这样的程序来说，存储器泄漏是特别严重的，根据定义这技程 
序是不会终止的。 


10.12 扼要重述一些有关虚拟存储器的关键概念 


在这一章里，我们 e 经看到了虚拟存储器是如何工作的，系统如何用它来实现某些功能，例如 
加载程序、映射共享库以及为进程提供私有受保护的地址空间。我们还看到厂作多应用程序! r 确或 
者不正确地使用虚拟存储器的方式。 

-个关键的经验教训 t 即使虚拟存储器是由系统 s 动提供的，它岜是种有限的存储器资源 t 
应用程序必须精明地管理它，止如我们从对动态存储分配器的研究中学到的那样，管理虚拟存储器 
资源可能包栝一些微妙的时间和空间的平衡，另一个关键的经验教训是， /i:c 秤序屮很容易犯与存 
储器有关的错误。坏的指针值、释放已经空闲了的块、不恰当的强制类型转换和指针 运算， 以及覆 
盖堆结构，这些 只是可 能给我们带来麻烦的咋多方式中的 -- 小部分。实际上，与存储器苷关的错误 
很讨厌，这是导致 Java 产生的一个重要原因， Java 取消了取变量地址的能力，完今控制 f 动态存储 
分配器，从而严格控制了对虚拟存储器的访问。 
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10.13 小结 


虚拟存储器是对主存的一个抽象。支持虚拟存储器的处理器通过使用一种叫做虚拟寻址的间接 
形式来引用主存。处理器产生，个虚拟地址 f 在被发送到主存之前，这个地址被翻译成一个物理地 
址。从虚拟地址空间到物埋地址空间的地址翻译要求硬件和软件紧密合作。专门的硬件通过使用页 
表来翻译虚拟地址，而页表的内容是由操作系统提供的。 

虚拟存储器提供三个重要的功能。第一，它在主存中自动缓存最近使用的存放磁盘上的虚拟地 
址空间的内容，虚拟存储器缓存中的块叫做页。对磁盘上页的引用会触发缺页，缺页将控制转移到 
操作系统中的一个缺页处理程序。缺页处理程序将页面从磁盘拷贝到主存缓存，如杲必要，将写间 
被驱逐的页。第二，虚拟存储器简化了#储器管理，进而又简化了链接、在进程间共享数据、进程 
的☆储器分配，以及程序加载 . 最后，虚拟存储器通过在每条页表条 M 中加入保护位，从而了简化 
了存储器保护。 

地址翻译的过程必须和系统中任意硬件缓存的操作集成在一起。大多数页表条月位于 u 高速 
缓存中，但是一个称为 TLB 的页表条 H 在芯片上的高速缓存_通常会消除访问在 L 1 上的页表条目 
的开销。 


现代系统通过将虚拟存储器组块 ( chunk ) 和磁盘上的文件组块关联起来，来初始化虚拟存储器 
组块，这个过程称为存储器映射。存储器映射为共享数据、创建新的进程以及加载程序，提供了… 
种卨效的机制 D 应用可以使用 mmap 函数来手工地创建和删除虚拟地址空间的 K 域。然而，大多数 
程序依赖于动态存储器分配器，例如 malloc , 它管理虚拟地址空间 K 域内一个称为堆的区域.动态 
存储器分配器是一个有系统级感觉的应_级程序，它直接操作存储器，而无需类型系统的很多帮助 6 
分配器有两种 类型： 显式分配器要求 应弔显 式地释放它们的存储 器块： 隐式分配器（垃圾收集器） 
ti 动释放任何无用的和不可达的块。 

对于 C 程序员来说，管理和使用虚拟存储器是一件困难和容易出错的任务 3 常见的错误示例包 
括： 间接引用坏指针，读取未初始化的存储器，允许栈缓冲区溢出，假设指针和它们指向的对象大 
小相 R ， 引用指针而不是它所指向的对象，误解指计运算，引用不存在的变量，以及引起存储器泄 


参考文献说明 

Kilbum 和他的冋事们发表了关子虚拟存储器的第一篇描述[42】。体系结构教科书包栝关 f 硬件 
在虚拟存储器巾的角色的额外细节[33]。操作系统教科书包含关于操作系统角色的额外信息[70, 83, 


75} 


Krmth 在19邡年编写了有关存储分配的经典之怍[43]。从那以后，在这个领域就有 T 大量的文 

献 6 Wilson、Joh 脱 one、Neely 和 Botes 编写了 关于显式分配器的完美调査和性能评价的文章 [8 S ], 

本书中关于各种分配器策略的吞叶率和利用率的-般评价就引 自干他 们的调査。 Jones 和 Lins 提供 

了关于垃圾收集的全面的调查[3 7 ], Kemighan 和 Ritchie [40] 展示了 -个简单分配器的完唳代码，这 

个简单的分配器是基于显式空闲链表的，每个空闲块中都有一个块大小和后继指针。这段代码使用 

联合 （ union ) 来消除大量的复杂指针运算，这是很有趣的，但是代价是释放操作是线性时间（而不 
是常数时间)。 
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www . cs . colorado . edu / 〜 zom / DSA . htm ] 丄 Zom 的 Dynamic Storage Allocation Repository t 动态存 


储分 Si 仓库） 培个很 方便的 资源。 它包括检测0存储器相关的错误的调试工 A , 以及 malloc / fr ^ 


和垃圾收集器的实现。 


家庭作业 


10.11 




在下面的一系列 H 题屮，你要展示 10+6+4 节中的示例存储器系统如何将虚拟地址翻译成物理地 
址，以及如何访问缓存 6 对于给定的虚拟地址，请指出访问的 TLB 条 S 3、物理地址，以及返回的缓 
存字)〗值，请指明是否 TLB 不命中，是否发生了缺页，是否发屮了缓存不命屮。如果有缓#不命中 1 

对于“返回的缓#字节”用 
和 D 就空着。 

虚拟 地址： 0 x 027 c 

A . 虚拟地址格式 


来表示，并把部分 C 


来表小_。如果有缺对于 “ PPN ” 用 


13 


12 


. 地址翻译 


VPN 


TLB 索 


TLB 标记 


TLB 命中？ <Y/N) 


缺豇？ (Y/N) 


PPN 


. 物理地址格式 


. 物理地址引用 


f 节偏移 


缓存索 _}| 


缓存标记 


缓存命中？ （ Y/N) 


返回的缓存？节 
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10.12 


LJ 


对于下面的地址，重复习题 10.11: 

虚拟 地址； 0 x 03 a 9 

A. 虚拟地址格式 


13 


12 


. 地址翻译 


VPM 


TLB 索引 


记 


命中？ （YJN) 


缺页？ (Y/N) 


PPN 


C, 物理地址格式 


D. 物理地如引用 


宇节偏移 


缓存索引 


存标 id 


缓存命中？ （Y/N) 


返回的缓存字节 


10.13 


对于 下由的 地址，重复习题 10.11: 

虚拟地址： 

A. 虚拟地址格式 


13 12 11 10 


* 地址翻译 
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VPN 


TLB 索引 


TLB 标圮 


TLB 命中？ （ Y / N ) 


缺页？ ( Y / N ) 


PPN 


C . 物理地址格式 


11 


10 


4 


D . 物理地 址弓此 




字节偏移 


缓存索4 


缓存标记 


缓存 命中？ CY / N ) 


返问的 缓存字 


1 D .14 ♦♦ 

假设有一个输入文件 hdlo . txt , 由字符串 “ Hello , world !\ n fl 组成。编写-个 C 枵序，使用 
来改变 hello.txt 的内容为 “ Jel ] o , world !\ n \ 


mmap 


10.15 


确定下 Hi 的 malloc 请求序列得到的块大小和头部值。 假设： 分配器维持双字对齐，使用图 10.37 
中块格式的隐式空闲 链表： 块大小向上舍入为最接近的8字节的倍数。 


宋 


块大小 （+ 进制字节） 块头® (+ 六进 SO 


me 二 1 oc ( 3 ) 


mslloc( 11 ) 


malloc(20) 


maLloc(21) 


10.16 


确定下面对齐要求和块格式的每个组合的最小块大小。假设；显式空闲链衷、每个空闲块中有 
四字下的 pred 和 succ 指针、不允许有效载荷的人小为零，并 ri 头部和脚部存 放在- ■个四字节的字 


里 
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对开要求 


空闲块 

头部和脚部 
久部和脚部 
头部和脚部 
m , 但是没有脚部 久部和脚部 


已分 E 块 
头 3 E 和脚部 
1部，但 M 没有脚部 
头邡和脚部 


■小块大小|: 芋节) 


科 




m- 


m 


10-17 ♦♦♦ 

开发 Uh 9，12 节中的分配器的个版本，执行下一次适配搜索，而不是自次适配搜索 D 

10,18 ♦♦♦ 

10.9.12 节中的分配器要求每个块旣有头部也有脚部，以实现常数时间的合并。修改分配器，使 
得空闲块需要头部和脚部，而己分屺块只需要头邹。 


10.19 


下面给出了_=组关于存储器管理和垃圾收集的陈述，在每一组中，只有…句陈述是正确的 & 你 
的任务就是判断哪 - 句是正确的。 

L U ) 在一个伙伴系统中，最高可达50%的空间因为内部碎片而被浪费了， 

Cb ) 首次适配存储器分配算法比最佳适配算法要慢…些（平均而言 X 

Cc ) 只冇3空闲链表按照存储器地址递增排序时，使用边界标记來回收才会快速。 

(d) 伙伴系统只会有内部碎片，而不会有外部碎片。 

2 k ( a ) 在按照块大小递减的顺序排序的空闲链表上，使用首次适配算法会导致分配性能很低， 
但是4以避免外部碎片。 

( b ) 对 f 最佳 适配方法，空闲块链表应该按照存储器地址的递增排序 。 

( c ) 最佳适配方法选择请求段匹 E 的最大的空闲块。 

Cd ) 在按照块大小递增的顺序排序的空闲链表上，使用_次适配算法与使用最伴适配算法等 


价。 


3. Mark&Sweep 垃圾收集器在卜列哪种情况下叫做保守的 r 
U ) 它们只有在存储器请求不能被满足时才合并被释放的存储器。 

Cb ) 它们把 -切 看起来像指针的东西都当作指针。 

( c ) 它们只在用尽存储器时， >j 执行垃圾收集。 

( d ) 它们不释放形成循环链表的存储器块< 

10,20 ♦命 ♦♦ 

编写你自己的 mdloc 和 free 版本，将它的运行时间和空间利用率与标准 C 库提供的 malloc 版 
本进行比较。 

练习题答案 

练习题 10.1 答案 

这道题 tl : 你时不同地址空间的大小有了些了解。曾几何时，一个32位地址空间看上去似乎是不 

可能的大。但是，现在有些数据库和科学应用需要更大的地址空间，而且你会发现这种趋势会继续。 
在你的有生之年，你吋能会抱怨你的个人电脑上那狭促的 64 位地址空间！ 
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# 地址位 （ rt) 


# 惟一的地址 （ N) 


鼉大地址 
2^-1 =255 
2 _ fr -l = 64 AM 
2 P - ] =4G-1 
2^^2567 \ 

2 M = 1 emF -] 


256 




16 


64 K 


2 31 = 4 G 


32 


4 R 


4 & 


2567 




2 ^ = 16384 P 


64 


练习题10,2答案 

因为每 a 虚拟页面是户 = 2H 所以在系统屮总共有272~ 2”个可能页面，其中每个都需 
要•个页表条 H (PTC)。 


P=2 p #PTE 的 


n 


16 


4 K 


16 


16 


SK 


32 


4 K 


m 


32 


8 K 


512K 


练习题 10.3 答案 

为了完全竽握地址翻译，你需要很好地理解这类问题。卜面是如何解决第一个子问题:我们冇#32 
个虛拟地址位和 wi=24 个物理地址位。页面大小是 F=1KB, 这意味着对于 VPO 和 PPO, 我们都需要 
logJlK)=10 位。 （N 想一 h VPO 和 PPO 是相同的。）剩卜的地址位分别足 VPN 和 PPN。 


WPN 位 WPO 位 #PPN(i #PPO 位 


P 


1 KB 


22 


10 


14 


10 


2 KB 


21 


11 


13 


II 


4 KB 


20 


12 


12 


12 


19 


1^ 


13 


11 


13 


练习题 10.4 答案 

做一些这样的手X模拟，能很好地巩固你对地址翮译的理解。你会发现写出地址中的所有的位, 
然后在不同的位字段1：画出方框，例如 VPN. TLBI 等等，这会很有帮助。在这个特殊的练习巾， 

没有任何类型的不 命中： TLB 有一份 PTE 的拷! 3L 碰存有- 份所清求数据字的拷 W。 对于命屮和 
不命中的-些不同的组合，请参见习题10.11、 10.12 和 10.13, 

A. 00 0011 1101 0111 

VPN ： 

TLBI : 

TLBT: 

TLB 命中？ 

缺页？ 

PPN: 

oon oioi oiii 


B, 


Oxf 


0x3 


0x3 


Y 




Oxd 


C. 
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co 


0x3 


D , 


0 x 5 


Cl : 


Oxd 


CT 


高速缓存命中? 
高速缓存字节? 


Y 


Oxld 


练习题 10.5 答案 

解决这个题目将帮助你很好地理解存储器映射。请自己独立完成这道题。我们没冇讨论 ope 
fstat 或者 write 函数，所以你 f 要阅读它们的帮助页来看看它们是如何工作的 


codeA^m/mmapcopy. c 


♦ include 11 csapp . h 


mmapcopy 一 uses miriap to copy file £d to stdout 


vo]d mmapcopy(int fd P int size) 


8 


char /* per to memory mapped VM area */ 


10 


bufp = MmapfNULL 

Write(l f bufp r size); 
return; 


PROT_READ, MAP_PRIVATE, fd f 0}; 


size 


11 


12 


13 


14 


15 / * mmapeopy driver */ 

16 int main(int arge, char 


•k * 


argvi 


17 


18 


struct staz stat; 

int fd; 


19 


20 


21 


卜 check for required command line argument */ 
if !arge 丨 = 2)( 

printf ( M usage ： %s <f ilenajne>\n lp , argv[0 ])； 
exit(01; 


22 


23 


2i 


2 B 


26 


27 


/* copy the input argument to stdout */ 
fd = Open(argv[1] f 0_RDONLY, 0); 

fstat(fd P &stat}? 
mmapeepy ( Ed, stat. s^i^size); 
exit 10 ); 


28 


29 


30 


31 


32 ) 


codeAm/mmapcopy, c 


练习题 10,6 答案 

这道题触及了一些核心的概念，例如对齐要求、最小块大小以及头部编码。确定块大小的一般 
方法是 f 将所请求的有效载荷和头部大小的和舍入到对齐要求（在此例中是8字节）最近的整数倍。 
比如， malloc ( l ) 请求的块大小是4+1=5,然后舍入到8。而 malloc (13) 请求的块大小是13+4=17,舍 
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10 


入到 24 


请求 块大小（十进制字节） 块头部（十六进制) 


ITlfl』lOC (J ) 


0乂9 


malLoc (5) 


0x1 ； 


16 


malloc ( 12 ) 


Oxn 


16 


malloc (1'^) 


24 


0x19 


练习题 10.7 答案 

fi 小块大小对内部碎片 Ti 显著的影响 . 因此，理解和不同分配器设计和对齐要求相关联的 M 小 
块人小是役好的。很冇技巧的-部分是，要意识到相同的块可以在不同时刻被分配或者被释放。因 
此， M 小块人小就是最小己分配块大小和域小空闲块人小两者的最人值 。 例如，在最后一个子 M 题 
中，最小的己分配块火小是一个4字节头部和一个1字节有效载荷.舍入到8字作。而最小空闲块 
的人小是一个 4 字廿的尖部和-个 4 字竹的脚部，加起来是 8 字节，已经是 8 的倍数，就不需要再 
舍入了。所以，这个分配器的最小块大小就是 S 字节。 


对齐要求 


己分 K 块 

I 部和脚部 
^^_ ■ 

头剖，佝是没有脚部 

尖部和脚部 

头部，何是没存脚部 


空闲块 
头部和脚部 
头部和脚部 
尖部和脚部 
\部和脚部 


最小块大+ (宇节) 


乌宇 


12 




双亇 


16 


双字 


练习題 10.8 答案 

这电没冇特别的技巧。但是解答此题要求你理解我们简单的隐式链表分配器的剩余部分是如何 
3_作的，是如何操作和遍历块的。 


- ■ — code/vrn/ma Hoc. c 


static void *find_fit(size_t asize) 


void *bp; 


4 


/* first fit search V 
for (bp ^ heap_li^tp; GET_S1ZE(HDRP(bp)) 

if fIGET.A^LOCtHDPPCbpi] & 4 (asize 

return bp? 


0; bp = NEXT_BLKP(bp))( 
GET_SlZE(HDRPtbp))1) i 


> 


< = 


10 


11 


return NULL; /* no Eit 


12 


code/vm/malloc.c 


练习题 10.9 答案 

这又是一个帮助你熟悉分配器的热身练习。注意对于这个分配器，最小块人小是16字节。如果 
分割后剩下的块大于或者等 f 最小块大小 * 那么我们就分割这个块（第6 〜 10行)。这甲.惟一有技巧 



虚拟存诸器 


665 


的部分是要意识到在移动到 T 一块之前（第 8 行 ) ，你必须放置新的己分配块（第 6 行和第 7 行 ) 


codefym/malioc.c 


static void place(void *bp, size_t asise) 


GET_SIZE(HDRP(bp}); 


size t csize 


if [ (csise 


(DSIZE + OVEKHEAD)) { 

PUT(HCRPfbp), PACK(asise, 1)); 

PUT(FTRPO>p) , PACK(asi 2 e f 1)); 

bp ^ NEXT_BLKPtbp )； 

PUT(HDRPibp), PACK(csize-asize, 0)); 

PUT (FTRP (bp! ； PACK [csize-asi f C ))； 


as] Ee) 




10 


11 


12 


else { 


13 


PUT(HDRP{bp), PACKtcsize, 1)); 
PUT(FTRP{bp1, PACKtcsize, 11); 


14 


15 


code/vm/fnaltoc. c 


练 53® 10.10 答案 

这里有 … 个会引起外部碎片的模式：应用对第一个大小类做大量的分配和释放请求，然后对第 
二个大小类做大量的分配和释放请求，接下来是对第二个大小类做大鼋的分配和释放请求，以此类 
推。对于每个大小类，分配器都创建 r 许多不会被回收的存储器，因为分配器不会合并，也因为应 
用不会再向这个大小类再次请求块了。 


第 3 部分 


程序间的交互和通信 


们学习计算机系统到现在，一盲假设程序是独立 运行轧 R 包含最小限度的 
输入和输出。然而， M 实世界里，应用程序利用操作系统提供的眠务来与 
I/O 设备及其他程序通信。 
t 本书的这一部分将使你了解 Unix 操作系统提供的基本 I/O 服务，以及如何用这些 
服务来构造应用程序，例如 Web 客户端和服务器，它们是通过 Internet 彼此通信的 D 

你将学习编写诸如 Web 服务器这样的可以同吋力多个客户端提供服务的并发程序^ 

当你学完了这个部分，你将稳健步入权威程序员的行列，能够充分理解计禪机系 
统以及它 C 対你程序的影响。 
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CH 網 ER 


系统级 I/O 


11.1 Unix I/O 

打开和关闭文件 
H -3 读和写文件 

用 R 〗 o 包进行健壮地读和写 
n .5 读取文件元数据 

11-6 共享文件 

11.7 I / O 重定向 

31-8 标准 I/O 

1K9 综合：我该使用哪些 I / O 函数? 
11.10 小结 


670 


11,2 


671 


673 


11.4 


674 


679 


681 


684 


685 


686 


687 
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输入 / 输出 （I/O) 是在主存 （main memory) 和外部设备 C 例如磁盘驱动器、终端和网络）之间 
拷贝数据的过程。输入操怍是从 I/O 设备拷贝数据到主存，而输出操作是从主存拷贝数据到 I/O 设 


备 


所有语哀的运行时系統都提供执行 I/O 的较卨级别的I：具。例如， ANSI C 提供标准 I/O 库，包 
貪像 printMl scatif 这样执行带缓冲的 I/O 闲数。 C++ 语言用它的重载操怍符《 (输 人）(输出） 
提供了类似的功能。在 Unix 系统中，是通过使用由内核提供的系统级 Unix I/O 函数宋实现这些较 
髙级别的 I/O 函数的。大多数时候，髙级别 I/O 函数工作良好，没冇必要直接使用 Unix 17CK 那么 
为什么还要麻烦地学4 Unix I/O 呢？ 

• 了解 Unix I/O 将帮助你理解其他的系统概念。 I/O 是系统操作不可或缺的一部分，因此，我 
们经常遇到 I/O 和其他系统概念之间的循环依赖。例如， I/O 在进程的创建和执行中扮演着 
关键的 角色。 反过来，进程创建又在+同进程间的文 件凡享 中扮演着关键角色。因此、耍 
真正埋解I/O,你必须理解进程，反之亦然。在对存储器 Cmemory) 结构、结构链接和加 
载、进程以及虚拟#储器的讨论中，我们已经接触了 I/O 的某些方面。既然你对这些概念 
有了比较好的理解，我彳I']就能闭合这个循环，吏加深入地研究I/O。 

* 有时你除了使用 Unix I/O 以外别无选择。4某些重要的情况中，便用髙级 I/O 函数小人 nj 

能，或者不太合适=例如，标疳 I/O 库没冇提供读取文件元数据的 方式， 这心元数据包括 
文件大小或文件创建时间 e 更有甚者， I/O 库还存在一些问题，使得用它来进行网络编稈非 
常 R 睑。 

这章向你介绍 Unix I/O 和标准 U0 的一般概念，并且向你展承在你的 C 程序中如何町靠地使 
用它们。除了作为一般呻的介绍之外，这。章还为我们随后学习网络编程和并发忭奠定唔实的基础, 


11.1 Unix I/O 


个 Unix 文件就是一个 w 字节的序列 




所有的 I/O 设备，例如网络、磁盘和 终端， 都被模型化为文件，而所有的输入和输出都被当+ 
对相应文件的渎和写來执行。这种将设备优雅地映射为文件的力 •式， 允许 Unix 内核引出一个简单、 
低级的应用接 U， 称为 Unix I/O, 这使得所有的输入和输出都能以一种统一且一致的方式来 执行： 

• 打开文件^ 一个应用稈字通过要求内核打开相应的文件，来宣占它想要访问，个 I/O 设备。 

内核返个小的非负整数，叫做描述符，它在后续对此文件的所有操怍中标 识这 个文件。 
内核记录这个打开文件的所有信息，而应用程序只苫记仕这个描述符。 

Unix shell 创建的每个进程开始时都有二个打开的 文件： 标准输入（描述符为0)、标准 
输出（描 if 符为 1) 和标准错误（描述符为2)。义文什 <unistd.h> 定义 r 常 ■ftSTDirvLFILENO、 
STDOUT_FILENO 和 STOERR^FILENO ,它们可用来代替显不的描述 符值。 

• 改变当前的文件位置。 内核保拧着一个文 件位置 L 对于每个打开文什，初始为0。这个文 
件位 t 是从文件开头起始的字 P 偏移景。应用秤序能够通过执行 seek 操作，昆式地设1文 
件的3前位置为 

• 读写文件。-个读操作就是从文件拷贝个字节到存储器，从与前文件位置 it 开始，然 
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后将 i 增加到给定-个大小为 m 字节的文件，当 k ^ m 时执行读操作会触发一个称为 
end-of-fi!e (EOF) 的条件，应用程序能检测到这个条件 t 在文件结尾处并没有明确的 “EOF 
符号' 


类似地，写操作就是从存储器拷贝^0个字节到一个文件 f 从当前文件位置 t 开始，然 


后更新 L 

关闭文件.当应用完成了对文件的访问之后，它就通知内核关闭这个文件 a 内核释放文件 
打开时创建的数据结构，并恢复描述符到吋获得描述符池中，以示响应。无论一个进程因 
为何种原因终 ih 时，内核都会关闭所有打开的文件并释放它们的存储器资源 4 


11.2 打开和关闭文件 

进程是逍过调用 open 函数来打开一个已存在的文件或者创建一个新文件的 


# include <sys/type£,h> 
# include <sys/stat.h> 

#include cfcntl.h> 


inL open(char ^filename, int flags, modest mode ); 


返回：若成功則为新文件描述符，若出错为 -u 


open 函数将 filename 转换为一个文件描述符，井且返 ㈣ 描述符数字。返回的描述符总是在进程 
中当前没有打开的最小描述符。 flags 参数指明了进程打算如何访问 文件： 

• O . RDONLY ： 只读 □ 

• 0 _ WR 0 NLY :只写。 

• 0 , RDWR :可读可写。 

例如，下面的代码说明如何以读的方式打开一个已存在的文件： 

fd = Open( H foo .txt 

flags 参数也可以是一个或者更多位掩码的或，为写提供给一些额外的指示： 

• 0 _ CREAT :如果文件不存在，就创建它的-个截断的 （ truncated ) (空）文件。 

• 0 JTRUNC : 如果文件已经存在，就截断它。 

• 0 . APPEND ； 在每次写操作前，设置文件位置到文件的结尾处。 

例如 ， 下面的代码说明的是如何打开-个已存在文件，并在后面添加一些 数据： 

0 一_肌 Y j 0_APP END r 0}; 

mode 参数指定了新文件的 i 方问权限位，这些位的符号名字如图 11 . 1 所‘ 

作为 hF 文的一部分，每个进程都有一个 umask ， 它是通过调用 umask 函数来设置的，当进程 
通过带某个 mode 参数的 open 函数调用来创建一个新文件时，文件的访问权限位被设置为 mode & 
- umaski 例如，假设我们给定下面的 mode 和 umask 默认值： 


0_RD0NLY, 0); 


fd 


Open("foo.txt 


I 


#define DEF_M0DE S_1RUSR|S_IWUSR|S_IRGRP|S_IWGRPIS_IR0THIS_IW0TH 
ttdefine DEF^UKASK S_IWGRP[S^TWOTH 




672 


11 


使用者 ■:拥有者）能够读这个义件 
他用者（拥有者）能够3这个文件 
使用者（拥有者）能够执行 ii 个文件 

拥有者所 rr 组的成员能够读这个文件 
拥右者所在组的成员能够写这个文件 
拥 fl 者所在组的成 员能够 执行这 个丈件 
其他成员 （rtw 成员）能够读这个文外 
mm (仵何成 k > 能够写这个文件 
mm (任何成员）能够 执行这个义件 


S IRIJSR 


S_IWUSR 


S rxusR 


S_l RGRP 


S_IWGPP 


G IXGKP 


S. I ROTH 


S_IWOTH 


S IXOTH 


1 M 访问权限位 


H 


在 sys/stat.h 中； i； 义 


接 F 来，下面的代码片段创建个新文件，文件的拥有#冇读写权限，而所有其他的用户都有 


读权限: 


umawk (nEF_UWASK) ; 

fd 二 Open ( 11 foo. txt 


0_CREATI0_TRUNCI0_WRONLY, DEF_MODE); 


最后，进程通过调用 close 函数关闭-个打开的文件。 


#inc] ude <unistd.h> 


int close {int fd }; 


退 ®? : 若成功则为 ( X 若出错則为 -h 


关闭一个己关闭的描述符会出错 


练习 S 11.1 

下面程序的输出是什么? 


# induce 


^ sapp.h 


2 


inL main(} 


4 


int fdl ； ;d2 ； 


fdl - OpenffooAxt" , G_RDOMLY f 0 )； 

Close(fdlj ; 

fd2 = Qpen( "baz ,txt p , C_Rmm〗Y r 0 )； 
printf (" fd2 = %d\n 1p r fd2 )； 
exit(0 )； 


9 


10 


11 


12 
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11.3 读和写文件 

应用程序是通过分别调用 read 和 write 函数来执行输入和输出的。 


ttinclude <unistd - h> 


ssize^t read[int fd, void ★buf, size_t n) 


返回： 若成功则为读的字节教，若 EOF 则为1若出错为 -h 


ssize„t write (int : Ed, coast void + b^f, size_t n) 


返回： 若成功则为写的字节数，若出错则为 -h 


read 函数从描述符为 fd 的当前文件位置拷贝至多 / i 个宇节到存储器位置 buf , 返回值 _1 表示一 
个错误，而返回值0表示 EOF 。 否则，返冋值表示的是实际传送的字冇数量。 

write 函数从存储器位置 buf 拷贝至多^个字节到描述符 fd 的当前文件位置，图 1 L 2 展示了一 
个程序使用 read 和 write 调用-次一个字节地从标准输入拷贝到标准输出。 


code/io/cpstdinx 


ftinclude "csapp.h 


1 


2 


int main(void) 


4 


5 


char c 


while (Read(ST_—F 1 LEN 0 , 1 ) != 0 ; 

Write:STDOUT_FILENO r ^c f 1); 


exit{0l; 


10 


code/io/cpstdin. c 


11.2 一次一个字节地从标准输入拷贝到标准输出 


通过调用 Isaek 函数，应用程序能够显示地修改当前文件的位置，这部分内容不在我们的讲述 


范围之内 


旁注： ssizej 和 size_t 有些什么 S 期？ 

你可能已经注意到了， wad 函教有一个 aittj 的褕入麥教和一个 ssizej 的返茚值，那么这兩种 
类型之简有什么区别呢？ sisscj 被定义为 onaipwdiEL 而 ssiacj {| 符号的大小）被定义为 iut 
函數返®—个有著号的大小，而不是一个无符号大小，这是因为出错时它必须送和 -1. 有麴的是， 
返铒一个 - I 的可能性使得 read 的最大值戒小一半，从 4 GB 滅小到了 2 GB , 

在某些情况下， read 和 write 传送的字 W 比应用程序要求的要少。这些不足值 （ shortcount ) 不 
一定是错误 4 因为一些原因，会出现这样的情况： 

* 读时遇到 EOF. 假设我们准备读一个文件 t 该文件从当前文件位置开始只含有20多个宇节， 

而我们以50个字节的组块 （chunk) 进行读取，这样 ■■来 T F —个 read 返回的不足值为20, 
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此后的 read 将通过返回 0 发出 EOF 愔号。 

• 从终端读文本行。如果打幵文件是与终端相关联的〔例如 . 键盘和显¥器)，那么每个 read 

闲数将一次传送一个文本打，返 N 的不足值等于 文本行 的大小。 

• 读和写网络套接字 （ socket )。 如果打幵的文件对应丁网络 套接字 ( 12 . 3.3 ¥-), 那么内部缓 

冲约柬和较的网络延迟 会引起 read 和 write 返[ 〖 !]不足值。对 Unix 管道 tpipe 1 调用 read 

和 write ， 也有可能出现+足值，这种进稈间通信机制不在我们 if 论的范围之内。 

实际上，除 fEOF , 当你在读磁盘文件时，将不会遇到不足值，而 R 在写磁盘文件时，也小会 

遇到不足值。然而，如果你想创建健壮的靠的）诸如 Web 服务器这样的网络应用，就必须处理 

由十反复调用 read 和 write 引起的不足■值，直到所有需要的字节都传送完毕 D 


11,4用 Rio 包进行健壮地读和写 

在这一小节里，我们会讲述一个 I/O 包，称为 Rio (Robust I/O, 健壮的 I/O) 包，它会 h 动为 

你处理 h 文中所述的不足值。在像 W 络程序这样容易出现不足值的应用中， Rio 包提供了方便、健 
壮和卨效的I/O。 Rio 提供/两类不同的 函数： 

• 元緩冲的愉入输出函数。这些函数 ft 接在存储器和文件之间传送数据，没有应级缓冲。 

它们对将二进制数据读写到网络和从网络读写二进制数据尤其有用 D 

• 带缓冲的输入函数 D 这些函数允许你高效地从文件中读取文本打和二进制数据， 这也文件 

的内容缓存在应用级缓冲医内，相似？为 prtmf 这枰的标准 I/O 闲数提供的缓冲冈。 ti[ 81 ] 

中讲述的带缓冲的 I/O 例稃不同，带缓冲的 Rio 输入函数是线程安全的 （ 1311 节)，它在 

同个描述符上町以被交错地调用。例如，你可以从一个描述符中读一些文 本行， 然后读 

取一些_:进制数据，接着冉多读取一些文本行。 

我们提出 Rio 例程为了两个 原因： 第一，在淒卜_来的两章屮，我们汗发的网络应用中使用了它 
们；第一，通过学习这些例稈的代码 t 你将对 Unix I/O 有更深入的 

11-4.1 Rio 的无缓冲的输入输出函数 

通过调用 riojeadn 和 rio.wtiten 函数，应用枵序可以在存储器和文件之间直接传送数据。 


ttirclude "csapp.h 


ssize^t rio_readn(int fd f void *usrbuf 
ssiiio」vriten(int fd, void *usrbu£» si2e_t nj; 

返回： 若成功则为传送的字节數，若 EOF 則为0 ( 只对 rio_readri 而言），若出错則为 -1 


size_t n) 


r 


no . readn 函数从描述符 fd 的当前文件位置最多传送 n 个字节到存储器位置 usrbuf , 类似地 t 
no _ writen 函数从位置 usrbuf 传送 n 个字节到描述符 fd 。 rio „ read 函数在遇到 EOF 时只能返冋一个 

不足值。 no _ writen 函数决不会返回不足值。对冋 -个描述符， 呵以仟 意交错地调用 rio_readn ft 


no writen 


Ea 11-3 显示了 riojeadn 和 rio.wnten 的代码，注意，如果 read 和 write 函数被 - 个从应用程序 
信号处理程序的返问中断，那么每个函数都会手动地重启 read 或 write 。 为了私 n_j 能冇较好的 nj 移 
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植性^我们允许被中断的系统调用， FI 在必要时重启它们。（参见 8.5.4 节中关于被中断的系统调用 
的讨论。） 


code/src/csopp.c 


saize_t rio_rea6titint fd, void ^usrbuf j size_t n) 


t nleft 
_t nread 
char *bufp = usrbuf; 


size 


n ; 


ssize 


while (nleft 

if ( (nread ; read(fd f bufp, nleft]) 

if (errno 


0) { 


> 


8 


C) { 

EINTR ) / + intemipted by sig handler return */ 

/* and call readQ again */ 


< 


9 




10 


nread = 0; 


11 


else 


/* erma set by readO */ 


12 


return 一 1 


13 


14 


else if (nread == 0) 

break; 

nleft -- nread; 
bufp += nread ； 


15 


产 EOF V 


16 


17 


13 


19 


return (n - nleft :)； 


/* return >= 0 V 


20 


code/s rc/csapp. c 

code/src/csapp, c 


ssi^e_t rio_writen(int fd f void *usrbuf, size_t n) 


size_t nleft 

ssi^e_t nwritten ； 
char *bufp - usrbu £； 


n; 


4 


6 


while (nleft > 0) { 

if {(nwritten = write(fd, bufp, nleft)) <= 0) { 

EINTR ) /* interrupted by sig handler return */ 

/ + and call write () again % / 


a 


9 


i£ (errno 




10 


nwritten ; 0; 


11 


else 


12 


严 errorno set by writ &() */ 


return 一 1 


13 


14 


nleft -= nwritten; 
bu£p + 二 nwriLtea ； 


15 


16 


17 


return n 


16 


code/src/csappx 


1 K 3 dojeadn 和 rio，writen 
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11.4.2 Ric 的带缓冲的输入函数 

个文本行就是一个由换行符结尾的 ASCII 码字符序列。在 Umx 系统中 . 换行符 (Wj 
ASCII 码换行符 (LF) 相同，数字值为 OxOa。 假设我们要编写一个程序來计算文本文件中文本行的 
数量，我们该如何来实现呢？一种方法就是用 read 函数来 - 次一个字节地从文件传送到用户#储器， 
检查每个字节来查找换行符。这个方法的缺点是它的效率不是很高，每读取文件中的一个字作都要 
求陷入内核。 




-种更好的方法是调用包装 （wrapper ) 函数 （ rio_readlineb)， 它'从一个内部读缓冲区拷 W _ _ 个 
文本行，与缓冲区变空时，会[^动地调用 read 重新填满缓冲对于既包含文本行也包含二进制数 
据的文件（例如12_5,3灯中描述的 HTTP 响应），我们也提供了一个 rio_i^dn 带缓冲 K 的版本，叫 
做 rio_readnb , 它从和 rio_readlineb 一 样的缓冲区中传送原始字节 。 


ftinclude 


void rio_reacinitb(rio_t 


int fd) 




ssize_t rvo_readlineb(rio_t 


void *usrbuf f si^e_t maxlent; 


rp 


ssize_t iio_readnb(rio_t + rp, void *usrbuE, size_t n )； 


这回：苦成功則为读的字节数，若 EOF 则为0，若出错则为-1。 


每打汗 一个描述礼都会调用 rio/adiiiitb 函数。它将描述符 fd 和地址 rp 处的一个类型为 rio_t 
的读缓冲区联系起来。 

rio.readinitb 阐数认文件 rp 读出一个文本行（包括结尾的换行符 ） T 将它拷 W 到#储器位 W 
usrbufi 并且用 null (空）字符来结柬这个文本行。 riojeadinitb 函数最多读 maxlen-l 个字作，余卜‘ 

的一个字符留给结尾的空字符。超过 maxlen-1 字节的文本行被截断，并用一个空字符结束。 

rio^ieadnb 闲数从文件 rp 居多读 n 个字节到存储器位置 usrbuf 5 对同一描述符，对 rio.readlineb 

和 rio^readii 的调可以任意交叉进打，然而，对这些带缓冲的凼数的调用 却不应 和不带缓冲的 
no^readn 函数交叉使用。 

你将在本书剩下的邹分中遇到大景的 Rio 函数的示例 □ 图 11.4 展小 f 如何使用 Rio 函数来-次 
行地从标准输入拷贝-个文本文件到标准输出。 




code/io/cpfile. r 


# include ri csapp.h 


int main(]nt argc, char 


argv( 


int n ； 

rio_t rio ； 

char buf[MAXLINE]; 


Rio_readinitb(&rio, STDIN^FILENO) ,■ 

while((n ^ Rio_readlinebio, buf r MAXLINE)i U 0) 


10 
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11 


RiO_writer(STDOUT_FILENO, buf, n )； 


12 


code/h/cpfile.c 


从标准输入拷贝一个文本文件到标准输出 




图 11.5 展示了一个读缓冲 E 的格式，以及初始化它的函数的代码 t rio.readinitb l^l 

数创建了一个空的读缓冲区， 并且将 一个打开的文件推述符和这个缓冲区联系起来。 

Rio 读程序的核心是图 rio_read 函数是 Unix readl^ 数的带缓冲的 版本。 


cade/indude/csapp.h 


1 ^define RIO^BUFSIZE 8192 

2 typedef struct { 

3 int rio_fd; 

4 int rio_cnt; 

5 char *rio_bufptr ； 

6 char rio_buf[RlO_BUFSrzE]; 


/* descriptor for this i[ttemal buf 
/* unread bytes in internal buf */ 
/* next unread byte in internal buf 
/* internal buffer */ 


} rio t ； 


code/ include /csapp.h 

code/^rc/csapp.c 


void rio_readinitb(rio_t 


★ 


rp, int Ed) 


rp->no_fd 
rp->rio_cnt = 0; 
rp->rio_bufptr 二 


fd 




4 


5 


rp->rio_buf ； 


c&de/src/c^appx 


11.5 —个类型为 rto_f 的读缓冲区和初始化它的 rto_readinitb 函数 




code/src/csapp, c 


static ssize_t rio_read(rio_t 


char *usri>uf, size_^ nl 


rp 


2 


int cnt; 


while Irp->rio_cnt 

rp->ria_crLt. 二 read(rp->ric_f d, rp 

sizeof(rp->rio_buf)) 


01 { /* refill if buf is empty 


<- 


bu£ 


->no 


if (rp->rio_cnL < 0) { 

i£ {err no ! = EINTRI /* interrupted by sig handler recum ^ 

return -1; 


11 


12 


else if (rp'>rio_cat 0) EOF * / 

return 0; 


13 


U 


e 丄 se 
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第 11 章 


13 


rp->rio_fcufp:r 


rp->rio_buf ; /* reset buffer ptr */ 




16 


1 "? 
丄 ■ 


18 


/* Copy minfn, rp->rio_ctU} bytes from internal buf to user buf */ 

cnt = 

if Up 

cnt 


19 


n; 


20 


->rio_^nt < n) 


2： 


rp->rio_cnt; 

memcpy{usrbuf x rp->rio_bufptr, cnt ); 


7:1 


23 


_bufptr 

rp->rio_cnt 

return cnt; 


cnt; 


rwio 


+= 


24 


cnt ； 




25 


26 


code/src/csapp.c 


11-6 内部的 rio_read 函数 

当调用 rio_read 要求读 n 个字节时，读缓冲区内有 rp -> rio_ctit 个未读字竹。如果缓冲£为空， 
那么会通过调用 read 冉次填充它。这个 read 调用收到一八不足值并不是错误 T 只小过读缓冲区是部 
分填充的。旦缓冲区非空， rio_read 就从读缓冲区拷贝 n 和 rp ^> rio_cm 中最小值的字) m 用户缓 
冲区，并返回拷災的字节数 & 

对于 - 个应用稈序， rio^^d 函数和 Unix read 闲数有冋样的语义。在出错吋，它返回值 _1, 并 

在 EOF 时，它返回值0,如果要求的字节数超过广读缓冲区内未读的字节的数 
量，它会返回一个不足值。两个函数的相似性使得很容易通过用 rio_rtad 代替 read 來创建不同类型 
的带缓冲的读函数。例如，用 rio_read 代替 read . 图 11+7 中的 rio_readnb 函数和 rio_readn 有相冋的 
结构。相似地，图丨 1.7 中的 ri 0 _ readlind ) 程序最多调用 rio_rcad maxlen -1 次。 每次凋用都从读缓冲 
冈返回 - t 宇节，然后会检杳这个字 )5 是否是结尾的换行符 D 




且适当地设置 


ermo 


code/src/csappx 


ssise_t rio_readlineb( ri o_L *rp, void + usrbuf 


size t maxien) 


^nt n, rc 
char c r * 


bufp = usrtuf ； 


for (n = 1 ； n < naxlen; ri 十 + j { 

rio_read|rp, 1)} == 1) { 


if ( (rc 




*bufp++ 

■ — I 

it (c 


C ； 


\iT ) 




10 


break- 

} else if (rz -- 

if (n == 1) 

return 0 ； 


0) I 


12 


13 


/* HOF ? no data read */ 


14 


else 


15 


break 


/* EOF, some data was read */ 


]6 


} el 
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17 


return -1; 


产 error */ 


18 


19 


*bufp - 0 ； 
return n ； 


20 


21 


code/src/csapp.c 

code/s rdcsappx 


ssize_t rio_readnb(rio„t *rp F void *usrbuf, size_t n) 


t nleft = 
ssize_t nread ； 
char *bufp 二 usrbuf ； 


size 


n ; 


while (nleft: > 0) { 

if ( (nread = : 

if (errno 

nread = 0; 


7 


rio_read(rp f bufp, nleft)] < 0)( 

==eintr ) /* interrupted by sig handler return 

f* call read() again + / 


9 


10 




else 


12 


/ + ermo set by read() */ 


return -1 ； 


13 


14 


else if (nread 

break; 

nleft -= nread 

bufp 十 = nread; 


0) 




15 


产 EOF V 


16 


17 


18 


19 


产 return >- 0 */ 


return [n - nleft ); 


20 


code/src/csctpp, c 


11,7 riojeadlineb 和 rio_readnb 函数 


: -1 


旁注； Rto 

Rio 函教的灵感来自于 w. 




在他的经典网络編粗作品 [81] 中揲迷的 

和 writta 函数是一样的，然而， 




£ 


和 yfmtm A 数， riojeadu 和 rio^writen A 数与 Stevens 
的 leadUne 兩數有一者眼制在 Rio 中得到了纠正 B 第一，因为 readfine 是带緩冲的，而 rwwta 不带 ，所 
以这 两个* 数不能在同一搞述符上一起使用，第二因为它使用一个静态的緩冲区 

?1 入一个不同的我程安全版本，称为 icadUne 丄我们已经在 






S 


A 数不是成程安全的，这就要求 
riojeadlinel) 和 riojeadn 函教中修改了这《个蚨睹，使得这两个*數是相互兼容和线根级安全的 


11.5 读取文件元数据 


应用程序能够通过调用似£和 fstat 函数，检索到关于文件的信息（有时也称为文件的元教据， 


metadata) 
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#ir:cludcr <unistd.h> 

# 丄 nclude ( syg / stat - h > 


int stat. { conhz char *f ilename, struct stai *buf i ; 
int f stat (\Til Cd, slruct stat *buf )； 


返回： 若成功則为0，若出错则为 -1。 

仙 I函数以个文件名作为输入，并填写如图 11.8 所示的一个舰数据结构中的各个成员。 f S Uit 
函数是相似的 * R 不过是以文件描达符而不是文件名怍为输入。3我们在115 W 中讨论 Web 服务 
器时，会需要 stat 数据结构中的 & t_mode 和 st_si ze 成另 t 其他成员则不在我们的论之列。 


statbuf.hfincludeed by sys/stat h) 


/* Metadata returned by the ytat and fatat functions * / 

struct stat { 

dev_t 
i no„t 
moie_t 
nlink_L 
uid t 


sL dev 


/ * device * / 

/* inode * / 

/ * protection and file type */ 

/* number of hard links */ 

ID of 

/* group ID of owner ” 

/* device type iif inode device) * / 

in byLes */ 

/ * block.size for filesystem I/O * / 

/ * nunber of blocks allocated ★/ 

/ * Lime cf last: access * / 

/* tine cl last modification * / 

卜 time of last change */ 


st_iro; 

st_niode; 

st_nlink ； 

st_uid; 

st_gid ； 

st_rdev; 

st_size ； 


user 


owner 


dev_t 

off., t 


/* total size 


unsigned long st_blksize; 
imsigned long st_b1ocks; 
t ime_t 
Lime_t 
time t 


st_atime ； 
si ctime; 


siatbuf.hfinditdecd hy sys/staih) 


H.8 stat 数据结构 

susize 成员包含了文件的字竹数大个。 stjmxle 成 M 则编码了文件汸问许 nf 位（图 U.1) 和文 

件类型 4 Unix 识别人量不同的文件类型。普通文件包括某种类型的二进制或文本数据。对于内核而 

言，文本文件和二进制文件毫无区别 6 自录文件包含关于其他文件的信息。套接 字是一 种用来通过 
网络与其他进程通信的文件 & 

Unix 提供的宏指令根据 s t_mode 成员来确定文件的类型。图 1L9 列出了这些宏的一个了集。 

_ 

宏指令 


述 


S_I5REG{) 


这是■个普通文件吗? 




这是■个 g 忒文件吗? 


S_I^OC<\) 


这是个 M 络套接字吩? 


1 1-9 根据 st_mode 位确定文件类型的宏指令 


在 sys / staLh 中定义 n 
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S 11*10 展了我们会如何使用这典宏和 stat 函数，来读取和解释一个文件的 st _ mode 位 


code/io/staicheck. c 


ttinclude n csapp,h 


2 


3 


int main (int argc, char **argvl 


struct stat stat; 

char *type, *readok; 


Stat(argv[1], &stat); 

if (S_ISREG ( stat - strode}) 

regular M ; 
else if (S_lSDiRtstat *st_mode)) 

directory rf ； 


/* Determine file type */ 


1 C 


type 


11 


12 


type 


13 


else 


14 


other 1 "； 

if { ( t=tat . st_mode & S „ TRUSR ) ) Check read access 

readok 


type 


lb 


16 


yes 


17 


else 


readok 


18 


no 


19 


20 


printf( "type ： read; %s\n ir , type x readok) 
exit(0 )； 


21 


22 


c&de/io/sta wheck c 


11.10 查询和处理一个文件的 st . mode 位 


11.6 共享文件 

可以用许多不同的方式来共享 Unix 文件6除非你很清楚内核是如何表示打幵的文件，否则文件 
共享的概念相当难惲_。内核用二种相关的数据结构来表示打开的 文件： 

• 描述符表 （ descriptortableh 每个进程都有它独立的描述符表，它的表项是由进稈打开的文 
件描述符来索引的。每个打开的描述符表项指向文件表中的一个表项。 

• 文件表 （file table), 打幵文件的集合是由一张文件表来表示的，所有的进程共享这张表 & 
每个文件表的表项组成（针对我们的冃的）包括有当前的文件位置、 ？1 用计教 （reference 

count) 即当前指向该表项的描述符表项数，以及'■个指向 v-node 表中对应表项的指针，关 

闭一个描述符会减少相应的文件表表项中的引用计数。内核不会删除这个文件表表项，直 
到它的引用计数为零。 

• vnode 表 （v-node tabk)。 同文件表-■样，所冇的进程共亨这张 v-node 表，每个表项包含 
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stat 结构中的大多數信息，包括 st_mode 和 st_size 成员 e 

11.11 展示了 -个示例，具中描述符1和4通过不 R 的打开文件表表项来引用两个不同的文 
件。这是一种典型的情况，没冇共皁文件，井且每个描述符对应一个小问的文件。 


描述符表 

/每个进程张太) 


打幵文什表 
〔所有进程 共，) 


V-node 表 
(所有 a 程 


文件 A 


文钟访问 
文件大小 
文件类型 


stdin fd 0 

sr.dDLit. 

gtderr ftt 2 

fd3 

M 4“ 


fd 1 


文忭 位罝 


refcrtt.^l 


ms 


文件访 M 
文件人小 

mm 


文件位置 


refcnfl 


li.ii 典型的打开文件的内核数据结构 


=3 


在这个示例中，两个描述符」 I .4 J 不同的文件 u 没有共享』 


如图 11.12 所小- 1 多个描述符也可以通过+同的文件表表项宋引用 N —个文件。例如，如果以 
同•个文件名调用 open 函数两次，就会发生这种情况。关键思想是每个描述符都有它 f]d 的文件位 
腎，所以对不同描述符的 读操作 扣以从文件的小冋位置获取数据 


描述符表 
(每个进枵。张表 


们丌义件及 


V-node 

(所有进程丸皁) 


( 所有进程 Jt 卓) 


文件 A 


fdO 


' 文件访 H 

:文件人小 
文 件类叩 


fdl 


文 件位置 


fd 2 


refcnt=l 


fd 3 


fd 4 


文什 B 


文件位置 


ref cnt — 1 


图 1 U 2 文件共享 

这个例 f •展示了两个推述符通过 W 个幵文件表表项共亨 R -个磁盘文忤。 


我们也能理解父了进程是如何共享义件的。假设在调用 fork 之前，父进稈有如图 11.H 所氺的 
打开文件。这时，阁 11.13 展示了调用 fork 后的情况， 

了进程有一个父进程描述符灰的副本。父 f 进程共莩相同的打开文件表集合，因此丼亨相 M 的 

文件位置。 - 个很重要的结果就是，江内核删除相应文件表表项之前，父了进程必须都关闭了它们 
的描述符。 
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描述符表 


打开文付表 
〔所有进程共？) 


V-node 表 
(所 有进程共享) 


文件 A 


父进程的戎 


fdO 


文件访 N 
3件大小 

文件类型 


fdl 


文件位置 


fd2 


refcnt=2 


M 3 


fd4 


文件 B 


文件汸问 
i 件大小 
文件类準 


子进 程的表 


fdO 


文件位置 


fdl 


fd2 


refcnt=2 


fd3 


fd4 


1 」 3 子进程如何继承父进程的打开文件 


初始状态如41 11.11 所示。 


法习题 us 

假设磁盘文件 foobar . txt 由6个 ASCII 码字符 H foobar " 组成。那么，下列程序的输出是什么? 




# include lp csapp .h 


int main (\ 


int fdl, fd 2 

char c; 






£d] = Open ( Ir foobar - txt 

fd2 = Open! "foobar.txt 11 r O^RDONLY, 0) 
Read(fdl f &c, 1 )； 

Read(fd2 f &c, 1 )； 
printf! u c = %c\n 
exit (0 )； 


0 RDONLY, 0 ) 


10 


LI 


12 


c) 


13 


14 


练习& 11.3 

就像前面那样，假设磁盘文件 foobar . txt 由6个 ASCII 码字符 “ foobar " 纽成，那么下列程序的 
输出是什么？ 


伴 include "cs&pp.h 


3 


int main (\ 


char c ; 


fd = Open( n Loohar.txt 
if (ForkU 

Read(fd, &c, 1 )； 
exit(0); 


0_RD0>JLY, 0 )； 


0 ) { 




10 


11 


12 


13 


Wait(NULL); 
Kcad(fd, 1); 

printf ( 
exit(0 )； 


14 


■i ^ 


%c \n 


IP 


c 




16 


-i ■—I 
■ 

■ 


11.7 I / O 重定向 

Unix shel [提供了 I / O 重定向操作符，允许用户将磁盘文件和标准输入输出联系起来。例如，键入 


Unix > Is 


foo.txt 


> 


使得 shell 加载和执行 Is 稈序，将标准输出重定向到磁盘文件 foatxU 就如 我们将 /K 12.5 节巾看到 
的那样，3 个 Web 服务器代表客户端运彳了 CGI 程序时，它就执行 种 相似类型的重定向。邵么 
I/O 重定向是如何 1. 作的呢？ 一 种方式是使用 dup 2 函数。 


# include <uniscd , h> 


int dup^ (irA oldfd ； int newfd：; 


H ___ 返回：若成功则为非负的描 述符. 若出错则为 -h , 

dup2 函数拷贝描符发发项 oldfd 到描述符表表项 newfd* 薄盖描述符表表项 newfd 以前的内 
容，如罘 newfd 已迕打开了， dup2 会在拷 W oldfd 之前关闭 newfd。 

假设在调用 dup2(4J) 之前，我们的状态如图 1U1 所小，其中描述符1 (标准输出）对应于文 
件 A (比如说一个终端），描述符4对应于文件 B (比如说一个磁盘文件）。 A 和 BW 引用计数都等 
于1。图 11.14 显 />• 了调用 du P 2(4,l) 之 f 的情况 □ 两个描述符现在都指向 B; 文件 A 已绰被关闭了, 
并 n 它的文件表和 v-node 表表项也已经_除文件 B 的引用计数己经增 J 卩了。从此以后，任何写 
到标准输出的数据都被重定向到文件1 

旁注；左边和右边的 hoinkies , 

为了避免和其他括号类型搮作符比如 6 T 和 “[” 相泷淆，我们总是将外 壳的 4 V 5 橾作符称为 
Whoinky ' 而符“ < n 操作符称为 “Ahoinky' 


缠习题 11.4 

如何用 dup 2 将标准输入重定向到描述符 5 ? 



描述符表 

(每个进程 -张犮) 


Vnode 表 


(所有进枵共享) 


I 文件访 M i 

I hhu^^i I I ■■■■■■ bbr a Hai r 

! 文件大小 I 

}ni I ^ mmmm iT mm an^ LLLJJJ 

i 文件类型 ! 


打开 文件衣 


(所有进程共亨) 


文件 A 


V 




■ ■11 I I ■■■■jj^paaaaiiibhh_j 


文件位 s 


I re£cnt=0 : 


文件 B 


文件访问 
欠件类型 


文件位置 


refcnt=2 


int main(t 


4 


int £dl f fd2; 
char c: 


fdl = Open ( 11 foobar, txt 
fd2 = Open ( 11 foobar. txt 
Read ! fd 2, & c r 1]； 

Dup2 \ fd2 H fdl )； 

Read{fdl f &c F 1) ； 
printf( u c 
exit: (0 )； 


0 一 RDONLY, 01; 
O^RDOWLY, 0 )； 


10 


11 


12 


13 


% c\n 


c); 




14 


15 } 


11.8 标准 I/O 

ANSIC 定义了一组高级输入输出函数，称为标准1/0库，为程序员提供了 Unix I / O 的较高级别 
的接 ru 这个库 ( libc ) 提供了打幵和关 闲文件 的函数 （fopeti 和 fdose )、 读和写字节的函数 （fiwd 
和 fwrite )、 读和写字符串的函数 （ fg 出和 fputs ), 以及复杂的格式化 I/O 函数 （scanf 和 printf )。 

标准 I / O 库将一个打开的文件模型化为一个流。对于程序员而言，一个流就是一个指向类型为 
FILE 结构的指针。每个 ANSI C 程序开始时都有二个打开的流 stdin 、 stdout 和 stderr ， 分别对应子 
标准输入、标准输出和标准错误： 


1 M 4 通过调用 dup 2(4, l ) 重定向标准输出之后的内核数据结构 


初姶状态如图 11.11 所示。 


缠习艟 11.5 

假设磁盘文件 foobar . txt 由6个 ASCII 码字符 tt foobar ” 组成，那么下列程序的输出是什么? 


# include n csapp 上 


1 
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ttinclude 丄 o*h> 

extern FILE + sLdiri? 
ex-Lern FTIjF] *stdout ; 

Hidyn ; 


/< standard inpui fdescriptor 0} */ 

/* ^ianoard output (descriptor 1} ” 

{ d^^cnp 


/* standard 


or 21 ★/ 


exteiii 


error 


类型为 FILE 的流是对文件描述符和流缓冲区的抽象 ， 流缓冲[八的 H 的和 Rio 读缓冲 K 的一 抒: 
就是便开销较卨的 Unix I/O 系统凋用的 数暈甩 可能得小。例！ ttl， 假设我们冇一个积序，它反 复调 币 
标准 1(0 的 getc 响数，每次调 ffl 返冋文件的下一个字符，当第■次调币 § 以0时，库通过调州■次 read 
函数來填充流缓冲区，然后将缓冲 K 屮的第一个字节返回给向.用程序。 W 要缓冲1<中沁有木 if: 的-宁 

接下來刈 getc 的调用就能 白接从 流缓冲 冈得到 服务。 


S 


11.9 综合： 我该使用哪些 I / O 函数 

图 1U5 总结 f 我们在这-寸论过的各种1/0包 


? 


fopen fdopen 
fread fwrite 
fscanf fprintf 
sscanf sprintf 

fgetn f put a 

ff lush iaeek 
fcloae 


cm 用程 IT 


rio readn 

m 

rio vriten 

■ ■ 

rio_reacJimtb 

rio_readlineb 
rio readnb 


RIO® 数 


m I / O 忒数 


■ ■ ■ 


read 

lseek 

close 


open 

write 

SlSLl 


unn i/o m 

(通过系统调用来访问) 


11.15 Unix I / O 、标准 I / O 和 Rio 之间的关系 

Unix I/O 是在操作系统内核中实现的=应用程序可以通过 open、dose、lseek, read |H write ^ 
杼的函数柬 i 方问 Unix I/O。 较岛级别的 Rio 和标疳 I/O 函数都是基于（使巾 ）Unix I/O 凼数宋吱现的= 
Rio 函数是专为本书开发的 read 和 write 的健壮包装 〔wrapper) 函数。它们 H 动处理小足 (short 
counts) ,开II为读文木行提供■种高效的带缓冲的方} i。 标准 I/O 函数提供了 Unix 1/0闲数的个 
更加完整的带缓冲的替代品，包括格式化 I/O 例程。 

那么 t 在你的枵序中该使用这些函数中的哪个呢？标准1/0蚋数足磁盘和终4设备 I / O 之]^ 
人多数 C 稈序 K 在他们的职、 Ik 牛涯中只使 ffl 标准1/0, tfij 从不涉及低级 Umx I / O 闲数。只要町能， 
我们推荇你也这样做。 

不卓的是，当我们试图对网络输入输出使用标准1/0时，它却带来了 •些 令人付 坎的 M 题。就 
像我们将在 12.4 令中看到的那样， Unix 刈网络的抽象是-种称为套接字的文件类型 . 利任何 Unix 

文件一杆，套接 T 也是用文件描述符来引用的，在这种情况中被称为套接字描迷符。应用进样通过 
读写套接字描述符来4运行在其他计算机上的进程通信。 

标准 U 0 流，从某神意义 上而‘ 是全双工的，因力程序能够在同••个流 I :执行输入和输出 & 然 
Ifi ], 很少 有文宁 记载和套接字限定相关的流限定： 

• 限定一：输入函教跟在输出函数之后。如果屮司没有插入対 fflush 、 fseek 、 fsetpos 或者 rewind 
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的调用，个输入凼数不能跟随在个输出函数之汩。 ffkish 函数清空与流相为的缓沖 
后 : 」个凼数使用 Unix I/O lseek 凼数來重1当前的文件位置， 

限定二：输出函教跟在输入函教之后 b 如粜中间没有插人对 fflush 、 fseek 、 fsetpos 或若 rewind 

的调用，-•个输出函数不能跟随在一个输入函数之后，除非该输入函数遇 到了… 个文件结 


柬。 


这些限制给网络应帀带来 r 一个问题，因为对套接字使 ffli S eek 函数是叫祛的 . 对流 i/o 的第一 
个附记能够通过采用在每个输入操作前刷新缓冲区这样的规则宋保证实现，然而，保 w 实现第二个 
限定的惟•办法是，对同…个?』开的食接宇描述符打幵两个流，-个用来读，•个闬 来写： 


FILE * Epin, *fpout ； 


fpin - fdopon(sockf 

fpout - fcopen(sockfd 


) 


) 


佝是这种 /; 法也有问题，因为它要求应用程序在两个流上都要调用 fdose , 这样彳能释放4每 
个流相■关联的存储器资源，避免存储器 泄漏： 


fclose ； fpin )； 

fclose IfpouL ); 


这些操作中的 每-个都试图 XfflN —个底 M 的套接字描述符，所以第二个 close 操作就会失畋。 

对顺序的裎序来说，这并小是问题，但是在个线稈化的 （ threaded ) 程序中关闭-个 L ： 经关闭了的 
描述符是会导致灾难的 （参见 〖3.74以)。 

因此，我们推荐你在 N 络套接字上不要使用标准 I / O 函数来进行输入和输出，而要使用 Rio 闲 
数。如果你盂要格式化输出 f 使用 sprintf 函数在存储器中格式化个字符串，然后用 rio ， writeti 把 
它发送到套桉如果你耑要格式化输入，使用 rio _ read ] in e b 来读一个完锒的文本行，然后用 scanf 
从文本行提取不同的字段。 


11.10 小结 

Ut > ix 提供了夕景的系统级函数，它们允许应用程序打开、关此读和写文件，提取文件的元数 

据，以及执行 I / O 重定 Unix 的读和写操作会出现不足值 (short counts ) ,应用程序必须能正确地 

预计和处理这种情况。应用程序不岜接阔用 Unix I / O 阐数，而应该使用 Rio 包， Rio 包通过反复执 

行读写操作，自:致传送完所有的猜求数据，自动处理不足值。 

Unix 内核使用=:种相关的数据结构来表小扣开的文件。描述符表巾的表项指向打开文件表中的 

衣顶，而打开文件表中的表项又指 A v-notk 表中的表项 D 每个进程都冇它己笮独的描述符表，而 

所有旳进程共享 M —打7卩文件表和 vmode 表。理解这些结构的一般构成就能使我们済楚地理解文件 
M ： 亨和1/0重定向。 

細准 I / O 库是基 -j Unk I / O 女现的 * 并提供了一组强大的卨钹 I / O 例程。对于火多数应 HJ 稈序 
Sip . 标准 I / O 更簡笮，是优于 Unix I / O 的选择。然而，因为对标准 I / O 和网络文件的-些相互不 
兼容的限制 ， Unix I / O 比之标准 I / O 更该适用 f 网络应用稃序 
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参考文献说明 

Stevens 编写了 Unix I/O 的标准参考文献 [76 卜 Kemighan 和 Ritchie 对于标准 I/O 函数给出 f 清 
晰而完整的讨论 [40J 。 


家庭作业 


11.6 


下面题口的输出是什么 ? 


1 # include ■_csapp,h 


2 


int main () 


inL fdl r fd2 ； 


Open ( 11 f oo . 匕 xL 
fd2 = Open("bar.txt 
Close[fd2] ； 
f d2 = Open ( ,f baz . txt 

printf ( ,p fd2 = %d\n n 
exit (0 )； 


0_RD0NLY, 0}; 

0 RDOWLY, 0); 


10 


0_RD0NLY, 0); 

£ d 2)； 


11 


12 


13 


117 


修改囹 11+4 中所示的 cpfile 程序，使得它闬 Rio 函数从标准输入拷贝到标准输出，次 MAXBUF 


个字节。 


11.8 


编写图 1U ◦ 中的 statcheck 程序的一个版本，叫做 fstatchech 它从命令行上取得-个描述符数 
字而不足文 件名 . 


11.9 ♦參 

考虑 卜面 对习题 11.8 + 的对 fstatcheck 程序的调用 r 


fstatcheck 3 < foo. txt 


urn x> 


你可能会预想这个对 f&tatcheck 的调用将提取和显示文件 foam 的元数据 . 然而， 3 我们在我 
们的系统上运行它时，它将失畋 , 返回 “ 坏的文件描述符 ” 。根据这种情况，填写 shell 在 fork 和 execve 
调用之 N 必须执打的伪代码： 


if (ForkO 

/* What code is the shell executing right here? + / 
Execve( 0 fstatcheck", argv, envp); 


0} { /* child */ 




11.10 ♦♦ 

修改图 11.4 中的 qrfile 程序，使得它有 个 W 选的命令行参数 infill 如果给定了 infile * 那么拷 




L 统级 1/0 


589 


贝 infile 到标准输出，否则像以前那样拷贝标准输入到标准输出9 一个要求是对于两种情况，你的解 
答都必须使用原来的拷贝循环（第9〜11行)。只允 i 午你插入代码，而不允许更改任何 B 存在的代码。 

练习题答案 


练习题 11.1 答案 

Unix 进程生命周期开始时，打开的 描述符 陚给了 stdin (描述符0 )、 stdout (描述符 1) 和 stderr 
(描述符2)。 open 阕数总是返 N 最低的未打开的描述符，所以第一次调用 open 会返回描述符3。 
调用 dose 函数会释放描述符3。最后对 open 的调用会返回描述符3,因此程序的输出是 

练习题 11.2 

描述符 fdl 和每个都有各自的打开文件表表项，所以每个描述符对于 foobar . txt 都有它自己 
的文件位置。因此，从 fd 2 的读操作会读取 foobarm 的第一个字节，并输出 




而不是像你开始可能想的 


练习题11,3 

回想一卜\子进程会继承父进程的描述符表，以及所有进程共享的 R —个打开文件表。因此， 
描述符 fd 在父于进程中都指问同一个打开文件表表项^当子进程读取文件的第一个字节时，文件位 
置加1。因此，父进程会读取 第二个 字节，而输出就是 


练习题 11.4 答案 

重定向标准输入（描述符 0) 到描述符5,我们将调用 dup 2(5 仍或者等价的 

dup 2(5, STDIN _ FILENO ). 

练习题 11.5 答案 

第一眼你会想输出应该是 


但是因为我们将 fdl 重定向到了 fd 2, 输出实际 L 是 
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网络应用随处吋见。任何时候你浏览 Web 、 发送 email 信息或#弹出-个 X window ^ 你就 iK 仵 

使用一个网络应稈序。冇趣的是，所有的网络应都是基丁相冋的基本编稈模型，有 f 相似的整 

体逻辑 结构，并 n 依赖相同的编程接 n 

网络应用依赖于很多江我们的系统研究中 d 经学习过的概念。例如，进程、信号、字节排序、 

存储器 ( memory ) 映射以及动态#储分配，都扮演着重要的角色。即使是对于专家而3,也还是有 

一些新的概念。我们耑要理解基+的客户端服务器编程模型，以及如何编5使用因特网提供的服务 

的客户端-服务器程序。最后，我们将把所有这丼槪念结合起宋，开发一个小但是功能齐全的 Web 

服务器，能够为真实的 Web 浏览器提供静态和动态的文本和图形内容。 


□ 


12.1 客户端-服务器编程模型 

每个 M 络应用都是基 f 客户端-服务器模型的，根据这个模型，一个应用是由•个服务器进秤 
?11 个或者多 A 客户端进稈组成。服务器管埋某种资源，并通过操作这种资源来为它的客户端提 
供某和服务。例如，一个 Web 服务器管理了一组磁盘 文件， 它会代表客户端进行检索和执行。--个 
FTP 服务器就宵理了一组磁盘文件，它会为客户端进行存储和检索。相似地，个电 f 邮件服务器 
管理了 -些文件，它为客户端进行读和更新。 

客户端-服务器模型中的基本操作是事务 (transaction) (1 12.1)。 个客广端-服务器事务由 

W 步组成 r 

1.当个客户端需要服务它向服务器发送一个请求，发起 '个事务。例如，， Web 浏览 
器需 要…个 文件时，它就发送•个请求给 Web 服务器， 

1服务器收到请氺后，解释它，并以适3的方式操作它的资源。例如，当 Web 服务器收到浏 
览器发山的请求后^它就读 个 磁盘文件。 

3. 服务器给客户端发送一个嘀雇，并等待卜 个 请求，例如， Web 服务器将文件发送回客广端。 

4. 客户端收到响应并处理它，例如，3 Web 浏览器收到来自服务器的-页 f ，它就在屏幕上 


I . 客户端发 送* 求 


4客户端 

处理响应 


服务器进矜 


tiM 


I . 服务器 
处理 I # 求 


3. 服务器发送响何 


图 12.1 —个客户端-服务器寧务 

认识到客户端和服务器是进程，而不是在本上下文中常被称为的机器或者主机，这是很I要的。 
一台主机可以同时运行许多不同的客户端和服务器，而 n. 客广端和服务器的事务 w 以在同 台 或是 
小 M 的主机上。 t 论客广端和服务器是怎样映射到卞机上的，客户端-服务器模型是相同的。 


旁注：客户端-服务器事务与数据库事务 

客户端-服务器事务不是数据库事务，而且也没有数据库事务的特性，例如原子性 * 在我们的上 
下文中，事务 忟仅是 客户端和服务器之问执行的一系列步骤， 










12,2 网络 


#户 瑙机■權运 tr 在不周 的兰机 上 3 # IL 1 过计算祝网路 WM 件和 Bf 件资通宋通 g B M 
咏屣 延杂的 系统. 作:这轧我们只想了癬一土皮毛， 我们的枰序 员的 ftt 给 你一个可1: 作的 


#1- I 个主机而言. M ^ mz ^ vom . 作为枚裉昶利数來接收方， 如 Mru 所取 ，一 
个抽則[/0总浅扩捆擠的 IM •器抵洪了到 M 铬的物珅推口 从网格上接呔到的数相从适^ 眯鳑过 i/o 

^mmd qma <迕接存玷器々舦方式>括违* 相似池. 敎 供也 


iSSS 


AW 


钱 打赵 HE 




±# 


桥 MU 


wm 


rotti 




ttWfl 


m Hi 


hv.i 


i ii2 — 个网 洛主机的》 件垲成 

犄押 lll(l|_,?f. mSL 个按里 地押远坻钳成的居次系统.低珐 ft LAN t Local Aim Ncr^cwV- 
阶峡岗八 € 围在一 个建 筑 或存校敁内， 1£今为 止. ： it 行的珣域 Mft 术趄 W 太两 CEtlicrMtU m 
由袖择公 MT 帕洛阿 尔托奸:究中心£ Xmsi W ^ MC ) 在加 世纪 TO 年代中_桦比的，以太呷技求按 E 明 
赴 3MWs-JCIi^ 之问柿1相 当适合 ffl, 

一个太网段 <Bhciiwi 包括一苍电 ffll i 通常是 匁绞线 > 和 ■个 叫做®现器 的小盘于, 

如 ftl I 2 』听示. 以*网 sa# 觅:务于-个小的区域 r 例如某 ft 觥衡的一个庚间或看一个*屋.錄權 
■il 堆棉軒相冋的最大位带宽 ■ 典切 他是 WOMhfF 或杏 ) Gb ^, 一螭违 ft 列主机 ffj 适 ft 器.闹另坤 

則连接到繁线楙的一个琛 P 上* 柬线雄不加 分辨地 栴从一肀瑚 P 丄枚到的特个位 t 制致其 fe 所街的 
fflCLt^ Klilt， 鮮合主机 AT 能着列 每个位 ■■ 

w 个以 feHSRS 柿有一个全蛘偷一的《 (iWiiiL 它存储迕 a 个术久性#站雔 . bj| 
台主机町以发 is —玫 位，你为# th..i.el a 5) .这个料®内掩他杆柯 1:. 枳. 晦个 Wfei 栝一挂 ISi r 数世 
的头 阳宋 feK 此輳 物海和 [1 的跑 Ji|: 以 S 此 WW 长度，赴后*绝的耽«轚坩位时有式 
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载荷 （ paybadh 每个士.机适 W 器都能君■到这个帐，仍是只冇 H 的 i 机实^度取它 


1.机 


主■:机 


1:机 


100 Mbs 


100 Mb/s 




123以太网分段 

使 Hi —些电缆和 m 做 M 桥 ( bridge ) 的小盒 r , 多个以太网段呵以连技戍较人的 W 域网，称为 
桥接以太网 (bridged Ethernet ), 如罔 12.4 听小 D 桥接以太网能够跨越整个建筑物或行校个 

桥接以太网 4 U -些电缆连接网桥勹 M 桥， iH 外一苎连接网桥和集线器。这些电缆的带宽 W 以足 

+ W 的。 ^我 们的小•例屮， M 桥勹 N 桥之间的电缆有 IGWs 的带宽，而四根网桥和1!线器之间屯％ 

的带览如纪 lOOMb /^ 


B 


A 


+ ih | 


1:机 


! t 机 丨]:机 


x 


触器 


龟线器 


桥 


100 Mb/s 


100 Mb/s 


1 Gb/s 


100 Mb^s 


)00 Mb/s 




賊 




4■■机 


]-{ll 


M'L 


c 


图 12.4 桥接以太网 

n 桥比染线器更免分地利用/电缆带宽。利用一种聪明的分配 算法， 它们随4时 m_i 动学习哪个 
卞_机对以通过哪个端 [MHi, 然后许竹必要时，有选杼地将帧从•个端 u 捭贝到其他端1丄例如，如 
^num •个帧列卜网段上的 t. 机 b ， 该帧到达网桥 x 的输入端 uih ， 它将去#此帧，因 ifri 
宵了其他网段上的带宽。然而，如宋主■机 A 发送-■个桢到一个段 L 的1机 C , 郎么砷桥 X 只会 
把此帧拷 W 到和 M 桥 Y4Hii 的端口 [: T M 桥 Y 会只把 此帧拷 W 到勺 t 机 C 1 的 M 段迕接的端 n. 

乂 J 厂简化局域网的灰小•，我们将 把炙线 器和网桥以及 ii 接它 们的电缆 匝成- •根水平线.如阁 12.5 


所1 


欠的级別中， 多个个 兼容的 局域网 吋 以通 过叫做 路由器 ( router ) 的特 殊汁 算机迮接起 
來，绀成■个 internet (互联网络 


] 此处 tet 为网桥 C bridge's, \MC, hole's. 










m 


ill 15 H 竣网的嘅念 ISR 


劳 Jli IPitem&t 和 internet 

我们 + 萬宇母竹 I 

在用，也 H 是所铒时士球〗 P 因# + 

1|台路由；《对于它所违儍的蚵个 M 络 ft 有一个适纪雄《棵门\路曲器收能连接命漣点角点 e 紅遗 
戎接 ，这 1 WAK ( W — f ^ iwort (，-广域网） 的一 稃示例，之所以这么_梃因为它们时地 
理范_比尚域网的太，一峻而芪_ « nis 可以用 tiiifr 忡匈域 wwr 域网枵计 

12 ■& 焫示了 一个 liiimirt 3合瞎_器迮拕 T 一 对周域 M 和 r 域] iU 


t 揭速-，毅壤念， 而用欠 的 iniLWL 来*述羅种特砵 t ) 实 




snicmii C 互肢网络) 


购 


m 


i 机 




k 




LA 


mmm 


H^Tl 


削 i»i 


w 


mi 


1 2 上 一个小 ia 的 hieffi#! < I 眹两格 1 


约个 m ph 十卜喊_三1 _Ftrh tiu t 


■ n_mM ( 4 _N 络 > IJtlf 的待性 Ml 它陡由采用宂仝枣 mfI 不 K 弃忮术的托种掎域网和广 
mm ^ 141*1 其他骛台3:机都钻物坤相 hi 納 

养的网绾 SI 教掸位 fl 另■台 g 的 i 机成為时椎叫？ 

醉袪办 fiWf^^ittr 迮毎旮主 JD1MI 由游上的协议軟件> 它洎除 f 不 3M 甩之 H 的绝畀，这个 
软 fl ■执行■神协议， IP_t 机和路 it 器如伸盼同I:作电实 mft 璀怜输■这祌协议 必熏掛 供_种铁本 


■母如何 ft 抖某台 * 主机旳过所 有这些不 加 


ted 』; 


命 A 方法，小 K 的周域 ㈣ 技水 ft ■不 H 和不痛荞的方式束为±极分 況地 址。 

协议皿过 m —种 一致的 Em 地址格式， 

ta 种 


inismrl I M : 联_ 




了这典 £#■ 錄台主机会《分祖至少 


inffifflecJfeAt [ intcmn aiM 您 sh 这 个地紺博地躲 识了它 a 

怜遂机倒-电 m 上喊 R 位和将这些砬封装昧 M 方 IU. 不问的网货 a 联技米有不 K>] 的 
JM 郭 的力 式， sntonw Oi. 联 M 绍）协汶1 过定义 一神 K » MitM 扎坺 不连统 的坩决 
—— l!i 就尨包一的统一方式.从 Ifl 垧昧 f 这些跤笄 

t* 


U B hu 「 k 、 

1 % 圓 个⑽由 包头 ( hntkf ) m •敢氣 

符 （ payiwd ) M 的， 其巾包 MSfl 的大小以及《主机和目的主 ft 的地址, 


mmm 


IB 12.7 埔示 了一 t t # L # 路由器知 f 』_? 使明 
数 ffi 的4:例*这个联 w 络） 


ini^mct Cft 联綱铬 > 热议东不1(容的坳域叫间传送 
柄例凼两个 N ! 域 W 通过一钍路由雄连接甬成，一个客 
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行 /]: 主机 A 上，主机 A 与 LAN1 相迮，它发送了一串数据字节到运行在主机 B t: 的服务器端，_卞 
机 B 则连接在 LAN2.I .0 这个过程冇8个基本步骤： 

1. 运行作4:机 A f: 的客户端进行了一个系统调用，从客户端的虚拟地址空间拷 W 数据到内核缓 


冲 M 


2. 卞机 A 上的协议软件通过在数据前附加 imemet (互联网络）包头和 LAN〗 帧头，创建了 一 

个 LAN1 的喊。 internet 眹网络）包头寻 ill ■到 internet (互联 网络）主机 B。LAN1 巾贞头_址到路 

然后它传送此帧到适配器。注意， LAN1 帧的有效载荷是-^ internet (互眹网络）包，其有 

效载荷是实际的用户数据。这种封装是基本的网络互联方法之一。 

3. LAN1 适配器拷贝该帧到网络上。 

4. 当此帧到达路由器时，路由器的 LAN1 适配器从电缆 h_ 读取它，并把它传送到协议软件。 

5. 路由器从 internet 极头中提取 出目的 imemet 地址 F 井用它作为路由表的索引，确定向哪里转 

发这个包，在本例中是 LAN2。 路由器刹落旧的 LAN1 的帧头，加卜_寻址到主机 B 的新的 LAN2 顿 
头，并把得到的帧传送到适 0d 器6 

6. 路41器的 LAN2 适配器拷贝该帧到网络上 E 

1当此帧到达主机 B 时，它的适配器从电缆上读到此帧，并将它传送到协议软件。 

8* 最后，主机3上的协议软件剥落包头和帧失。当服务器进行一个读取这些数据的系统调 ffl 时, 
扑议软件最终埒得到的数据拷贝到服务器的虚拟地址空间。 


视 A 


主机 B 


i 客户端 


服务端 




(S) 


_t _ 

to 议坎件 


协议软件 


互联 w 洛 


_ 

'LAN2 I 

；适 K 器 
■ ■■- f 


LAN1 






Router 


(3} 


PH FH1 


PH FH2 


( 6 ) 


LAN2 l- 
适配器 I I 器 


LAN1 


LAN1 




L ^ n 2 W 


LAN2 


协议软件 


12.7 在 internet (互联网络）上，数据是如何从一台主机传送到另一台主机的 


^ 9 ^ PH= intfimet (WtW 络）包义 i FHh LAN1 失： PH2 ： LAN2 


当然 * 在 这坩我 们掩盖了许多复杂的问题。如果不冋的网络有不同帧人小的最人值，该怎么办 
呢？路由器如何知道件.哪 t 转发帧呢？当网络拓扑变化时，如何通知路由器？如果■个包丢失了又 
会如何呢？虽然如此，我们的示例抓住了 imeniet (互联网络）思想的精髓，封装是关键 6 
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12,3 全球 IP 因特网 


全 #:IPH 特 N 足 


c C 互络）最身名 r 鏃成功的实现，从 i 9 Wiffi P 它就以这 ㈣ 
作«彤式办1了_过然_持网的内_钵*格构1|杂11)]彳界断变化， WffrS 从 JOtfr 纪80年代皁明以 
^ 客户4-准务器应用的组织就一 IS 抒相角的松定 


12 * «示了一个因特 H 客户碥明务呀应 




栴 W 务 ttt 钱 


i mmtvi 


口 “" I 


te^ip : \^mm 


WttAn (4> K )-4 


H »£ K » : 4 n 




■iSlPMtfW 


2 .S —十因特 PIS ： 用程序的醪件和识畔组往 


坤台 机柿 isiT^BlTCPfll 1 {Tnnimi^in^ C^mrol ProiM_n_enri PmiMftl, 传#榨 

制》 _.__ 议） _ 件 _ 扎 乎每 个塊代 itBIlft 聽 ; fe# 这个 _, 尚_的其户隸服 
㈣ 站 ㈣ 用料 字接 □ 4 M un^ i/oiftHftiitiifs [Mi# a 12.4 节巾舶按 ？ 接 m« 
it 转节由教典 ■ 她进作为致统 _ 呵宋丈现的 > 这些系统会 略人内 fe . 

TOflPlI ， 

- tcp/ip 肿 悔-个■供 不_功桶 # _■ ip 

引 述送 机制.埝 种递达 机制睢 蠊从，台闲特 时 h 机往其 龅土拟 发迖包 ， 也叫做藪讲妞 
ip 杭制从慕忡*义上而不町靠的.0为_如％ r 堆报 迕蚵 绀中丢失或 ttt 
uw (抑 m *#_) m»rRTipm 这样 一* 

]p 之上的1杂协议-掸供 r 进稃问 fljft 的全双工 <艰向的） 连毪. 为 r® 化我们 
的 Wife. 禺们将 TCP/rp® 做 是一个 咿独的挤钵钭 汉， 我们将#讨沦它的内 HI 作. 

为 EH ] 柑序 提供的某些 S 本功眛 ■ 我扪冉 不讨论 uur - 

从粗甲的氣 t ， 我 fmr 以把闶符 nm 一 个世界 t [ i 的 i 机聱合 
* t 机 羝含 Bit 射为一纽 32 怜的丨 P 地址 * 

* 这 ffiP 嫩址被 映盱为 ■组挣为固#用城 i 
• -个 w 持网 I 机上的进稃 mm - 个遴接 (, nnTi « u « i > 


用各种 内核* n 的 


^ iiiiflgr ! tm > 


它 i 不会诤I 
包吋以在进汚 M ini 不是在上机 W 传送 


TC 户 足一十 




只讨论 TCP fl: 


ft 選以下特性; 


■『nlcmo dam^in name ) 的标 LfU 

« 任何莫他时特网土机 jL 的进种 


mi 


F :节 H 圯咩 细地吋 论这些 萃本的 ffl 特网裱龙 
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12 . 3.1 IP 地址 

…个 ip 地址就是-个32位力_:符号整数、 M 络秤 「 r : 将 ip 地址#放 A 如阁 12.9 所士 ■的 ip 地址结 


构中 


^——- netinet/in.h 


/* : nternet address structjre 

striicL m_adcii { 

unsigned iri 匕 s...addr ； 


+ 


y 


network by t .c oidci (big endian) 


^ — netine !/ in t h 


12.9 IP 地址结构 


旁注： 为什么要用结构来存放标 » ip 地址？ 

把一个标量地址存放在结构中，是套接字接口早期实现的不幸产物，为 ip 地址定义一个标量类 
型该更有意义，包是现在更改已经太迟了，因为已经有大量应用是基于此的， 


因为因特网巾机吋以有不同的卞机字 W 顺序， TCP / IP 为任意整数数据项定义 f 致的网 络字节 
抻序 (network byte order ) (大端字 u 顺序），例如 1 P 地址，它放在包头中，通过 M 络。4 IP 地址结 
构中存放的地址总是以（大端法）网络字节«序存放的，即使 t 机字 ㈣ Chosi byte order ) 

端 l Unix 提供丫卜面这样的函数在网络和 t 机 1 MV 顺序 间实现转换： 


a incl iide <nei im:i. /in. h.> 


unbignod 1 one -ini ht.onl i unsigned long 
unsigned rihoi l int hcons {ur^ i gnod sfiorL ini hos l shor 1 1 ; 


host long )； 


int 


返仏 按照网络字节顺序的值。 


unsigned long iru nr.ohl {jnsiyiied long int. net long ：； 

i ： Ti^icjr.ed ^hori. inn nrohs i gr.od short ml net^hor^- j ； 


泛闽： 按照主机字节顺序的值 u 


homl 瑀数将32位幣数 111 卞机节 U 顺序转换 AM 络字 ntohl 喊数将32价幣数从网络字 
5顺序转换为 t_ 机7节。 htom 和 ntohs; 函数为16位的格数执彳丁相应的 H •换。 

ip 地址是以点分十进制表示法表示，这中_,每个字口山它的十进制点和其他 
7帅」分例如， 128.2.194/242 就足:地址 0x8002c2f2 的点分|进制及 y ■: {\, Linux 系统上，你能 
mm HOSTNAME 命令東设苴你〖彳己主机的点分卜进制地址： 


1 inux> honame 

； 23.2.194.24? 


W 特 M 杩 nr 侦 tti in C t _ ato ! 和 inet _ ntoa 坤数来实现 IP 地址和点分 _ l •进制串之间的 转换: 


#inc，udc <arpa/inet.h> 


]nt I neL at or: (cor.st chd r 


cp, ^r.r^ct in_addr + inp^ ； 


y! 


成回: 若成功则为I，若出错则为 （h 


char net_ntoa(struct 二 n_addi ; 


返回： 指向点分十进制串的指针。 





W9 


incijccinpfifi 将一 个点 计 f ■进制 中 蚪 我为一 ■个 ㈣ 铕竽砗堳序的 |p 地灿 
iMUit ™ 蛐数 构一个 矚络宇 li 爛坪的 Ip 地域:转換为它所对在的点分 i ^ i ,! 

的 iXfflff 埵釣楚 術向枯 枸的指 fh 而对 iaa 

旁注=池 W •和 alwft 卄么鬈甩？ 

u n' 表示的是 _ 蝽 (Mcworit),, V 灰承成用 S 呼 plicitiofll 


(inp), 相似地 .. 
i 化对 imi ¥bDn 


R 


J11_M 的珣坩传迎的§结构木身 


表轉 捵. 


练 Sit 12.1 

充成下太:： 


㈣ 


A 分 fan 坩甘 


CJtCfffffit 


oiitfooecu )： 


560,121 


64.12.ng a u 




峒 IS 序 hex 2 dd .『 


V : 搿它的+六进制# ftW 换&点分十进电毕対 ff 印出结! ft . 轲由 


umx >，/ he^dd ffx 60 OZi ：2£? 


12 Sa ,13 i.MZ 


^ 呵构呼 dd 3 b^c , 它将它 的点分 十进 3 f 每粒 转换为 十 

./ das^wc 125.2.194,242 
Q ^8002 eaE 2 


进制欹并 打却出 结钯•例如 


/\ 


12.12 因特 网域名 

1*1 特 M 艿 Pi* 料*#3? 「I. «通帒时使咁时是 IP 地址* 

^ 所以闻特网也定义 了一维 史加人忡化的城名 (dammit 

机抓 城名是一_甩句点分隕的单试(宇母 . 数平和鐮被層 i 

kit ty hdwfc ■ cruel - tfi , 

m 斷 純成了 _个咖⑽ . 針則關了 6 _个&㈣的位置 ■ 
拽魅戍 • _(110匿承了域*眉次_曲1_分. 

&向利抿的路 砼形成 称为予 
Id F _ g 是一_ 

lor Assl ^ ni ,^ Njhu *\ ^nri h " iirabt；n 

gw , 町和 Mi . 


3rf|， 对于入们 |#言，大 

M - ft 朗辦 wmp _ m 


M 


u , edu 


过-个示 « 体将 M 容 ft 

ffi 钊： ■时 wn ! ■点 丧:』:■域 . g _ 

HH >- 财:咖巾 ㈣ nt 赖名 _ 

— ㈣ 也 ■■■:■■ri:m 、 h> i. *!| I! fe‘l, 打 H':V 、， h lU _ 

w 恃 M 分紀 名字 ft ? 协会） ^ 常 E 的® — M 域: ^4括_. 




me ] CoipDI^Lb 


下一栏 ft 霰二展 E 




kvtl] Wta CimjxdiL, 这嗖域名是屮 ICANN 的备个$於代 9 


■ 
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按照先到先服务的基础分配的。 口 一个组织得到了一个第二层域名，那么它就吋以在这个子域中 
创建任何新的域名了。 


示命名的拫 


第一 层域名 


mil 


edu 


gov 


com 


第：层域私 


berkeley 


mit 


emu 


amazon 


第: IK 域名 


cs 


COG 


WWW 

208 . 216 . 101.15 


erne 


pdl 


kittyhawk 


impend 

128 , 2 , 194.242 128 2 189.40 


12 J 0 因特网域名层次结构的一部分 

因特网 定义了域名集合和 TP 地址集合之间的映射。直到 1988 年，这个映射都是通过一个叫做 
HOSTS.TXT 的文本文件来手 T 维护的。从那以后，这个映射是通过分布世界范围内的数据库——称 

为 DNS (域名系统）——来维护的。从概念1:而言， DNS 数据库甴 h 百万的图 12.11 所示的主 机条宵 

结构 (host entry structure ) 绀成的，其中每条定义了一组域名（一个官方名字和一组别名） fll 组 IP 

地址之间的映射。从数学意义 h 讲，你可以认为，每条主机条0就是 个 域名和 IP 地址的等价类。 

netdh.h 


/* DMS host entry structure + / 
struct hostent { 

char *h 


/ * official domain name of host */ 

"nul1 -t erminated array of domain 
"host address type (AF_INRT) */ 

/* lengLh of an address, in bytes V 

/* null-terminated array of in_addr structs */ 


_naiTie ； 
h_aliases ； 
int h_addrLype ； 
int h_length ； 

char * + h_acdr list; 






neidb.h 


12,11 DNS 主机条目结构 
因特网应用程序通过 _ 用 gethostb > name 和 gethostbyaddr 阐数，从 DNS 数据库巾柃索任意的卞 


a 


机条口 


ttinclude <netdb.h> 


struct hostent *gethostbyname(const char *name); 


返回：若成功则为非 NULL 指针，若出错則为 NULL 指针，同时设置 h 


ermo 


struct hostent *gethostbyaddr(co^st char *addr 


int lent, 01 


r 


返回： 若成功則为非 NULL 若出错則为 NULL 指针，同时设置 h 


ermo 
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get host by name 函数返回和域名 name 相关的主机条3 。 gethostbyaddr 函数返回和 IP 地址 addr 
相关的主机条目 。第 二个参数给出了一个 IP 地址的字节长度，对于目前的因特网而言总是四个字节。 
对于我们的要求来说，第三个参数总是零 . 

我们 nj 以借助于图 12.12 中的 H 0 ST 1 NF 0 程序 ， 来挖掘一些 DNS 映射的特性，这个程序从命 
令行读取一个域名或点分1进制地址，并显$相应的主机条 H 。 


code/netp/hostinfo. c 


# include ^csapp,h 


1 


int ma.in (ir.t dirge, char **argv) 


4 


char **pp ； 

struct in—addr addr; 
struct hostent *hostp 


if (arge != 2)( 

fprintf(stderr, 

argv[0]) 


1C 


%s 〈domain name or dotted^decimal>\n 


ri 


usace : 


ii 


H 

丄之 


exit(0} 


13 


14 


if (inet_aton(argv[l], fcaddr) I - 0) 

hostp = Gethostbyaddr! (const char *)&addr J sizeof (addr) f AF_INET) 


15 


16 


17 


e_se 


IS 


hostp = Gethostbyname(argv[l]); 


IS 


2C 


printf ("official hostname ： %s\n IT ； hostp->h_name); 


21 


22 


for {pp 二 ho&tp->h_aliases; *pp i ^ NULL ； pp-h+) 

printfi M ias ； %s\n 


23 


PP) 


24 


25 


for (pp ; hostp->h_ac3dr_list 

addr.s_addr 
pri ntf [ "address : %s\n 


pp 1 - NULL; pp++) { 


26 


((unsigned int *)*pp )； 

inet_ntoa(addr)); 


27 


28 


29 


exit(D ); 


30 ) 


code/netp/kostinfo. c 


12,12 检索并打印 DNS 主机条目 

每台因特网主机都有本地定义的域名 tocalhost ,这个域名总是映射为本地回送地址 （loopback 
address ) 127 A 0.1： 




unix> ■/hostinfo localhost 

official hostname: localhost 


702 


alias ： localhost *localdomain 
address: 127.0+0.1 


localhost 名字为引用 k 行在同-台机器 i: 的客户端和服务器提供 f 一卞便 利和可移植的方式， 
这对调试相当冇片 U 我们可 以使出 HOSTNAME 来确定我们本地主机的实际域名： 


unix> , /hostname 

kittyhawk , cmc 丄 .cs.emu.edu 


在最荀单的情况中， -个 域名和个 ip 地址之间是-一映射 


/hostinfo kittyhawk. crr\cl. cs. emu. edu 
official hostname ： kittyhawk - cincl. cs . cmu.edu 
address ： 128.2^194,242 


unix> 


然而，在某些情况下，多个域名町以映射为同一个 ip 地址: 


urux:> . /hostinfo rs . edu 

official hostname: EECS,MIT.EDU 
alias : cs.nit.edu 

address : L8.62.1, 




在最通常的情况卜，多个域名可以映射到多个 IP 地 ih 


unix> , /hostmfo www.ao 

o£ficidl hostname ： aol.com 
alias : www.com 

address k ： 20b, 183 + :60,121 

address : & 4 -12 1 1 49.1 j 

address ： 205 .188.146,23 


com 


最后，我们注意致某些合法的域名没有映射到仟何 ip 地 fc: 


+ /hostinfo ^du 
GeLhoy tbyname error : address associated with naine 

/host info : :iricl *dcrru . edu 

Gothastbyname error : No address associated with 


uni^> 


urn m> 


naxtie 


旁注： 有多少因特网主机 

. 因特网软件仿会 （Internet Software Consortium， 


1 


.isc.org) 自从1987年以后，每年进行两 
次因恃网城名调查这个调查，通过计算已经分 fc 给一个域名的 IP 地址的数量表估算因特网主机的 


tVAVAVi 


数量，展示了一种令人吃惊的趋势，自从1987年以来，当时一共大约有20 000台因特两主机，每 
年主机数董都大概会翻一番。到2001年6月，全球已经有超过120 


台因特网主机了。 


KOICO 


练习® 12.4 

编译图 12.12 中的 HOSTINFO 程序：然后在你的系统上连续运行 hostinfaaol . com 三次 

A , 在三个主机条目的 1 P 地址顺序中，你注意到了什幺？ 

B . 这种顺序有何作用？ 
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12 . 3 . 3 因特网连接 

因特网客户端和服务器通过 在连接 （ connection ) 上发送和接收字节流来通信.从连接一对进程 
的意义上而言，连接是 点对点 （ poim - io - poiiit ) 的。从数据可以同时双向流动的角度来说， 它是全 
双工 （ ftill - duph ) 的。弁且从——除了一些如粗心的耕锄机操作员切断了电缆引起灾难性的失畋以 

外——由源进程发出的字节流最终被0的进程以它发出的顺序收到它的角度来说，它也是可靠的 d 

套接字 ( socket ) 是连接的端点 （ end - point )。 每个套接字都有相应的 套接字 地址，是由一个因 
特网地址和个16位的整数端口组成的，用“ 地址： 端口”来表示 a 当客户端发起一个连接请求时， 
客户端套接字地址中的端口是由内核自动分配的，称为临 时端口 (ephemeral port ). 然而，服务器 
套接字地址中的端口通常是某个 知名的端口， 是和垠务对应的。例如， Web 服务器通常使用端口 80, 
而电子邮件服务器使用端口 25。在 Unix 机器上，文件 fctc / services 包含一张这台机器提供的服务以 
及它们的知名端口号的综合列表 6 

个连接是由它两端的套接字地址惟一确定的。这对套接字地址叫做套 接字对 （socket pair \ 
由 F 列三元组来表 示的： 




(cliaddr;clipart P servaddr:servport) 


其中 cliaddr 是客户端的 IP 地址， cliport 是客户端的端口 t semddr 是服务器的 IP 地址，而 servport 
是服务器的 端口。 例如，图12,13展示了一个 Web 客户端和一个 Web 服务器之间的连&在这个示 
例中， Web 客户端的套接字地址是 


128.2, 194, 242:bm3 


客户瑀套接宇地 k 
128 2.194,242:51213 


服务器套接字地址 
208.216.181.15.80 


服务器 

K (portBO) }\ 


客户端 


A 连接套接字对 

^ j (128.2 194.242:51213. 208.216^81. 15:6 ⑺ 


其 P 端 t 机地址 


股 务器主 机地址 

200.216.181 15 


128.2.194.242 


S 12-13 因特网连接的分析 

其中端口号51213是内核分配的临时端口号. Web 服务器的套接字地 址是： 

203,216.181, 15:&0 

其中端口号80是和 Web 服务相关联的知名端口号，给定这些客户端和服务器套接字地址，客 
户端和服务器之间的连接就由卜列套接字对惟一确 定了： 

{128.2.194.242:51213, ： 208 . 216 . 181 *1B :80 ) 

旁注： 因特网的起源 

因特网是政府、学校和工业界合作的最成功的示例之 一. 它成功的因素很多，但是我们认为有 
两点尤其重要： 美® 政府30年持缘不交的投资，以及充满激情的研究人员对麻省理工欠学的 Daw 
Oarfa 提出的 w 粗略一致和鹿用的代码"的投入. 

因特两的种子是在1957年揍下的，其时， jt 值冷战的高峰，苏寒发射 Sjmtrik ， 

球1皇_裳悚了世界 • 作为响应， 美® 政房匈建了高级研究计刻著 （ ARM ), 其任务就是 f 建美* 
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在科学与技术上的痛寺地位，1967年， ARPA 的 Lawrence Roberts 提出了 一个计划，建立一个叫做 
ARPANET 的新网络.第一个 ARPANET 节点是在1969年建立并运 行的. 到1971年，有了 13个 
ARPANET 节点，而且 OTfiil 作为第一个重要的网洛应用涌現出来, 

1972年 ， Robert Kata 抵括了两络互联的一般康則： 一 组互相连接的网络，通过叫做 11 路由器 
的黑金予按照“尽力传道基础”在互相独立处理的网絡间实现通信，1974年， Kahn 和 Vimon Cerf 
发表了 TCP / IP 体议的第一本详_资料，到1982年它成为了 ARPANET 的标准网络互联协议，1983 
年1月1拉， ARPANET 的每个节点都切换到 TCP / IP ，标志着全球 IP 因特两的诞生 a 

1985年， PaulMockapeths 发明了 DNS , 有1 000多台因特网主机 t 次年，国家科学基金会 { NSF ) 
用 56 B £ b / g 的电话线连接了 13个节点，构建了 NSPNET 的骨干网，其后在1988年升级到 L 5 Mb/s T 1 
的连接速率，1991年为 45 Mb / sT 3 的连接速率。到1988年，有超过50000台主机.1989年，原始 

的 ARPANET 正式退休了. 1995年，已经有几乎10000000台®特网主机了， NSF 取消了 NSFNET ， 
并丑用基于由一打左右的公众网络接入点连接的私有商业骨干网的現代因特两架构取代了它. 


12.4 套接字接口 


套接字接口 (socket interface) 是一组用来结合 Unix I/O M 数创建网络应用的函数。大多数现代 
系统 h 都实现它，粗括所有的 Unix 变种、 Windows 和 Macintosh 系统。图 12.14 给出/一个典型的 

客户端-服务器事务的上卜文中的套 接宁接 n。 当我们讥论各个函数时，你吋以使用这张图来作为 
向导图 D 


客户端 




socket 


socket 


bir.d 


aptn_List^tif[J 


open client 士 d 


listen 


连接请求 


ccnnecl 


dL'L'CfJl ： 


no writen 


rio readlmeb 


等持来 fi 下-个 
客户瑞的连接谪求 


^e^dlinec 


r i<j rfrif-ftrL 


rio 


EOF 


close 


一 叫 rio readl meb 


close 


12-14 套接字接口概述 


旁注 t 套接宇接口的起源 

套接字接口是加州伯克利分校的研究人员在20世纪80年代早期提出的，因为这个原因，它也 
经常被叫做伯克利套接字 • 伯克利的研究者使得套接字接口适用于任何底层的协议 • 第一个实现的 
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就是基于 TCP/IP 协议的，他们把它包括在 Unix 4,2 BSD 的内核里，并且分发给许多学枚和实猞室, 
这在因特网的历史上是一个重大事件.几乎一夜之闽，成千上万的人们接触到了 TCP/m 和它的玀代 
码*它引起了巨大的兴趣，并漱发了新的《络和网络互联精究的浪瑚， 


12.4.1 套接字地址结构 

从 Unii 内核的角度来看，套接字就是通信的端点 Cend-point). 从 Unk 程序的角度来看，套接 
字就是-个有相应描述符的打开文件。 

0特网的套接字地址存放在如图12 + 15所示的类型为 sockaddrJn 的16字节结构中。对于因特 
网应用， sin_family 成员是 AFJNTE，siiuwrt 成员是一个〖6位的端口号，而 sin^addr 成员就是… 
个32位的 IP 地址。 IP 地址和端口号总是以网络字节顺序（大端法）存放的。 


sockaddr: socketbits.k (included by socketh). sockaddr in: netinit/in.h 


/* Generic socket address structure [for connect, bind, and accept) */ 

struct sockaddr { 

unsigned short family 
char 


/* protocol family * / 
sa_data[14]; /* address data. */ 


/ * Internet-style socket address structure */ 
struct sockaddr_in ( 

unsigned short sin_family 

unsigned short sin_port; 

struet in_addr sin_&ddr； 

unsigned char sin_zero [S] 


/* address (always AF_IMET) V 

/* port number in network byte order V 
/* IP address in network byte order V 
/* pad to sizeof (struct sockaddr) * / 


sockaddr: socketbits.h (included by socketM). sockaddrjn: n^linit/in-h 


12.15 套接字地址结构 


in_fld<lr 结构如图 ] 23 所 ；^ 


旁注： Jn 后纗意味什么？ 

上后 飯是亙 联网* MistemeO 的縮写 * 而不是输入 (input) 的縮果 

bind 和 ac apt 函数要求一个指向与协议相关的套接字地址结构的指针。套接字接口的 
设计者 S 临的问题是，如何定义这些函数，使之能接受各种类型的套接字地址结构 D 今大，我们可 
以使用通用的 void* 指针，那时在 C 巾并不存在这种类型的指针，解决办法是定义套接字函数要求 
■个指向通用 sockaddr 结构的指针，然后要求应用程序将与协议特定的结构的指针强制转换成这个 
通用 结构。 为了简化我们的代码示例，我们跟随 Sfcven 的指导，定义下面的类型： 

typedef struct sockaddr SA ； 

然后无论何时我们需要将 sockaddrJn 结构强制转换成通用 sockaddr 结构时 t 我们都使用这个 
类型（参见图的第 20 行的示例 h 

12.4.2 socket 函数 

客户端和服务器使用 socket 函数来创建-个套接字描述符 Csocket descriptor) D 


connect 
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#include <sys/types,h> 

#include csyts/socket ,h> 


int socket (ini domain, int type, int protocol); 


返回： 若成功則为非负描述符，若出错则为 -u 


在我们的代码中，我们总是带这样的参数宋调用 sockei 函数 

clien-fd=Socket(AP_lNET r SOCK_STREAM r 0) 

其巾， AFJNET 表明我们 iH 在使用因特网， lfliSOCK_STREAM 表示套接字是因特网连接的端 
点 (end-point), socket 返回的 cheiufd 描述符仅是部分打开，并且不能 用丁读 写，我们如何完成打 

开套接宁■的工作，取决子我们是客户端坯是服务器 t 下- -v? 描述当我们是客户端吋如何完成 打开套 

接字的 n 

124.3 connect 函数 

客广 端足通过调用 connect 函数来建立和服务器的连接的。 


f 


Hinclude <^ys/socket.h> 


int connect(ini yockfd, struct soc^addr *serv_addr, int acdrlen :; 


返回： 若成功则为0,若出错则为-1。 


connect 函数试图4套接字地址 serv.addr 的服务器建立一个因特网连接，其中 addrlen 是 
sizeoffsockaddrjn), connect 函数会阻塞， 一 I到连接成功建立或是发生错误，如果成功， sockfd 描 
述符现在就准备好读写/,开 fl., 得到的连接是由套接字对 


H serv_addr , gin_addr : serv_addr.sin_port} 


刻画的，其中 x 表示客户端的 IP 地址，而 y 表示临旳端口，它惟一地确定了客户端主机上的客广端 


进程。 


12.4.4 open_clientfd 函数 

我们发现将 socket 和 connect 蛾数包装成一个叫做 open_clientfd 的辅助函数是很方便的，客户 
端口!以用它来和服务器建立连接 5 


# include M csapp.h 


int open_clientfd(ch^r ^hostname f int port}; 


返回：若成功则为描述符，若 Unix 出错则为-1，若 DNS 出错 B1 为-2 


open.clientid 闲数和服务器建立一个连接，该服务器运行在1机 hostname i: T 并在知名端口 

上监听连接谓求。它返 M ■'个打 7 T . 的奩接字描述符，该描述符准备好了，可以出 Unix I/O 函数做输 
入和输出。图12,16 it f open_dientfd 的 代码。 


port 


code/irc/csapp. c 


inL open_dientfd(char *Tnostriame 


inL port) 
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int client Ed; 

struct hostent *hp? 

struct sockaddrin gcrveraddr 


if ((clientfd 二 socket(AF^INET, S3CK„STREAM f 0)) 

return ^1 ； /* check errno for cause of error 〜 


0 ) 


< 


/* Fill in the server 7 s IP address and port */ 

if ((hp - gethos~byname(hostname)) 

return -2; / + check h ermo for cause of error V 


10 


11 


NULL) 


]2 


13 


bzero((char *) &server addr, sizeof[server addr )； ; 

AF INET ； 


14 


serveraddr.sin_family = 
bcopy((char *)hp->h_addr 

[char *)^serveraddr,sin_addr.s_addr, hp->h_length) 
serveraddr - sin_port - htons(port); 


15 


16 


1 7 

I 


1& 


!* Establish a connection with the server */ 

if (connect(clientfd, (SA *) tserveraddr, sizeof(aerveraddr)] 

return -1; 

return clientfd ； 


19 


20 


0) 


< 


21 


22 


23 


code/src/csappx 


图 12.16 open^dientfd: 和服务器建立连接的辅助函数 

在创建了套接字描述符（第7行）后，我们为服务器检索 DNS t 机条 H， 并拷贝主机条 H 中的 
第一个 IP 地址（已势是按照网络字节顺序的了）到服务器的套接字地址结构（第11〜16行)。在用 
按照网络字节顺序的服务器的知名端 n 号初姶化套接字地址结构（第17行）之后，我们发起了一个 
到服务器的连接请求（第20行）。当 conneci 函数返回时，我们返回套接字描述符给客户端，客户 
端就可以立即开始用 Unix I/O 和服务器通信了 




12.4.5 bind 函数 

剩下的套接字闲数 —— bind 、 listen 和 accept 被服务器用来和容户端建立连接。 


# include <sys/sccket , h> 


int bind(inL sockfd ； struct sockaddr *my_addr, int acdrlen)j 


返回：若成功则为0，若出错则为 -1 


bind 函数告诉内核将 my.addr 中的服务器套接字地址和套接字描述符 sockfd 联系起来。参数 


addrlen 就是 sizeof( sockaddr_i n) 


12.4.6 listen 函数 

客户端是发起连接请求的主动实体.服务器是等待来自客户端的连接请求的被动实体默认情 
况广内核会认为 socket 蜣数创建的描述符对应 f 主动套接字 （active socket )， 它存在子一个连接 
的客户端。服务器调用】 isfcri 函数告诉内核，描述符是被服务器而不是客户端使用的 * 
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12 


# 丄 nc:lude <3y^ / socket. h> 


int listen(in 。 sockfd, int backlog] : 


返若成功则为0，若出错则为-1。 

listen 函数将 sockfd 从一个±动套接字 转化力 -个监听套接字 (listening socket ), 该套接宇匀以 

接受来 S 客户端的连接请求。 backlog 参数暗小了内核在开始拒绝连接请求之前，应该放入队列中等 
待的未宂成连接请求的数暈。 backlog 参数的确切含义要求对 TCP / IP 啩议的理解，这超出了我们 W 
论的范围。通常我们会把它设置为一个较大的值，比如1024。 


12.47 openjistenfd 函数 

我们发现将 socket 、 bind 和 listen 函数结合成一个叫做 open _ lis ( enfd 的辅助函数是很有帮助的， 

服务器吋以用它来创建 •个 监听描述符。 


#include M csapp - h 


int open_listenfd(int port); 


这回：若成功則为描述符，若 Unix 出错則为 -h 


openjistenfd 闸数打卄和返回个监听描述符，这个描述符准备好在知名端 n port 上接收连接 
请求 D 阁 12.17 展小了 open . listenfd 的代码，在我们创建了 listenfd 套接 T 描述符之后，我们使用 
smockopt 函数（在这里没有描述）来配置服务器，使得它能被立即终 lh 和重启。默认时，一个重 fi 
的服务器将在大约30秒内护绝客广端的连接请求，严重地阻碍了调试。 


code/src/csapp. c 


int open_listenfd(int port ) 


int listenfd, opLval=l ； 
struct sockaddr in serveraddr 


卜 Create a socket descriptor + / 

il ((liatcrfd = socket(AF_INET J SOCK—STREAM, 0 }) < 0) 

return -1； , 


10 


/* Eliminates 11 Address already in use lp error from bind. */ 

if fsetBOCkopt (listerifd, SOL_SQCKET ; SO.REUSEADDR, 

(const void *)^optval } sizeof ( 丄 ntt} 


11 


12 


0) 


13 


return 一 1 ; 


14 


lb 


1^ Listenfd will be an endpoint for all requests to port 

on any IP address for this host" 

bzero((char *) &serveraddr f sizeof(serveraddr ))； 
ser veraddr,sin_famil^ 

serveraddr.sin_addr * s_addr = htonl{INADDF_ANY); 
aerveraddr . sin_port :- htons ( (unsigned short}port); 


16 


17 


18 


AF INET 


19 


20 
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21 


if (bindflistenfd, i SA *) SrServeraddrp sizeof ( aerveraddr)) 

return _1; 


0) 


22 


23 


严 Make it a listening socket ready to accept connection requests */ 

if (listen[listenfd, LISTENQ) < 0) 

return -1 ； 

return 1istenfd ； 


24 


25 


26 


2 


28 


code/s rc/csapp. c 


图 12.17 openjistenfd : 打开和返回一个监听套接字的辅助函数 

接下来，我们初始化服务器的套接字地址结构，为调用 bind 函数做准备。在这个例 f 中，我们 
帀 INADDR _ ANY 通配符地址来告诉内核这个服务器将接受来自这台主机的任何 IP 地址(第！9行) 
和到知名端 Upon C 第 20 行）的请求 D 注意，我们用 htonl 和 htons 函数将 1P 地址和端口号从卞机 
字节顺序转换为网络字芾顺序。最后，我们将 listenfd 转换为一个监听描述符（第 25 行夂并将它 
返冋给调用者。 


12.4.8 accept 函数 

服 务器通过過用 accept 函数来等待来自客户端的连接请求 : 


#include <sys/socket. h> 


int accept(int listenfd r struct sockaddr *addr, int + addrlen) 


返若成功則为非负连接描述符，若出银则为 -I 


accept 阐数等待来自客户端的连接请求到込侦听描述符 ii^tenfd , 然后在 addr 中填写客户端的套 
接字地址，并返回一个已连接描述符 (connected descriptor), 这个描述符 C 被用来利用 Unix I/O 函 
数与客户端 通信。 

监听描述符和己连接推述符之间的 K 别使很多同学感到迷惑。监听描述符是作为客户端连接请 
求的一个端点。典型地，它被创建一次，并存在于服务器的整个生命周期。已连接描述符是客户端 
和服务器之间己经建立起来了的连接的一个端点，服务器每次接受连接请求时，都会创建一次，只 
存在于服务器为一个客户端服务的过程中。 

图 12.18 描绘了监听描述符和己连接描 述符的 角色，在第-■步中，服务器调用 accept , 等待连 
接请求到达监听描述符，具体地我们设定为描述符3。回忆 -F， 描述符0〜2预留给了标准文件。 

在第二步中，客户端⑽用 comiect 函数I发送一个连接请求到 listenfcU 第二 . 步， accept 函数打 
开了-个新的已连接描述符 cornrfd (我们假设是描述符 4), 在 clientfd 和⑵ mif(3 之间建立连接，并 
辻随后返回 cormfd 给应用程序 。 客户端也从 connect 返回.在这一点以后，客户端和服务器就分别 
可以通过读和写 dientfd 和 connfd 来回传送数据 

旁注： 为何要有监听描述符和已连接描述符之间的区别？ 

你可能很想知道为什么套接字接口要区别监听描迷符和已连接描述符，乍一看 T 这像是不必要 
的复杂化，然而，区分这两者被证明是很有用的，因为它使得我们可以建立并发厫务»，它能够同 
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时处理许多客户端连接 . 例如，每次一个连接请求到达监听描迷符时，我们可以派生 (folk) 一个 
新的进程，它通过它的巳连接搞迷符与客户端通信.你将在第 13 章中学习更多关于并发服务器的内 


客 


lietenfd(3) 


客户端 


I 服务器 


1. 服务器 阻塞在 accept , 等持监听描 
述符 ktenfd 上的连接 请求。 


crlientfd 


li^tenfd( 3 ) 


连接请求 


服务器 


2. 客户瑞通过调用和阻 S 在 connect ， 
创建连接请求 


S 户端 


a 


clientfd 


liatenfd(3) 


3. 服务器从 accepl 返冋 connfd □客 
户端从 connect 返[^1 □ 现在在 clientfd 

和 connfd 之间己 茳建、 y . 起了连接。 


客户端 


服务器 


clientfd 


connfd ⑷ 


12.18 监听描述符和己连接描述符的角色 


124 9 echo 客户端和服务器的示例 

学习套接字接 U 的 M 好方法是研究‘例代码。图 12.19 展示 . 客户端的代码。在和 
殷务器建立连接之后，客户端进入一个循环，反 M 从标准输入读取文本行，发送文本行给服务器 f 
从服务器读取响应行，并输出结果到标准输出。当 fgets 在标准输入 h 遇到 EOF 时，或者因为用 
户在键盘上键入 ctd-d， 或者因为在一个重定向的输入文件中用尽了所有的文本行时，循环就终土。 

循环终之后，客户端关闭描述符 D 这会导致发送一个 EOF 通知到服务器，当服务器从它的 
rio.readlineb 成数收到一个为零的返冋码时，就会检测到这个结果。在关闭它的描述符后，客户端 

就终止了 & 既然客户端内核在一个进程终止时会 S 动关闭所冇打开的描述符，第24行的 close 就没 
有必要了。不过，显式地关闭我们己经打幵的任何描述符是一个良好的编枵 W 惯。 


code/netp/echoclient c 


# include p, csapp.h 


2 


int maindnt argc, char **argv) 


4 


5 


inL clientfd, port; 

char *hostj buf[R^XLINE] 

H a—t 


6 


ri o 


if (argc [- 3) { 

fprintf(sLderr 
exit(0); 


10 


usage: %s <host> <port>\n 


ir 


argv101); 


i 


]1 


12 


13 


host ; argv[1 ]； 
port = atoi(argv[2]) 


14 
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15 


16 


clierttfd = Opert_clientfd(host, port.); 
Rio_readinitb(&riox clientfd) : 


17 


19 


while (Fgets(buf, MAXLIHE, stdin) \= HULL) { 

Rio_writen(clientfd r touf, strlenlbuf ))； 
Rio_readlineb i &：rio f buf, MAXLINE); 

Fputs(buf, stdout); 


20 


21 


22 


23 


Close(clientfd); 
exit(0 )； 


24 


S 


26 } 


code/netp/echvclienu c 


12.19 echo 客户端的主程序 


12,20 展冶了 edio 服务器的主程序。在打开监听描述符后，它进入-个无限循环。每次循环 
都等待 - 个来自客户端的连接请求，输出已连接客户端的域名和 IP 地址，并调用 echo 函数为这些 
客户端服务。在 echo 程序返回后，主程序关闭己连接描述符。 一11 客户端和服务器关闭了它们各自 
的描述符，连接也就终 It 了。 


code/netp/eckose rveri c 


# include ■■ csapp,h 


void echo (ir』t coanfd); 


4 


int main (int argc, char +5t argv) 


iTil listenfd, connfd, port, clientlen ； 
struct socXaddr_in clientaddr ； 
struct hostent fr hp ； 
char *haddrp; 

if (drgc 1-2) { 

fprintf(stderr, ^usage: %s <port>\n', argv[0]i 

e^It f 0); 


10 


11 


12 


n 


14 


pert - atoi(argvf1 ])； 


15 


16 


17 


listenfd = Open_listenfd(pert] 
while (1) { 

cl 丄 entlen 


18 


19 


sizeof(clientaddr); 

connfd = Accept ! 1 istenfd^ (SA *) £tdientaddr, ^client leri) 




20 


21 


/* determirie the domain name and IP address of the client */ 

hp - Gethostbyaddr t (const char *ientaddr .sin_addr,s_addr, 

sizeof(clientaddr.sin_addr,s_addr},AF^INET) 
haddrp = ineu_ntoa fclientaddr.sin_acdr); 
printf("server connected to %s (%sj\n", hp->h 


22 


23 


24 


25 


26 


haddrp) 


name 


■ 

p 


27 



772 


28 


echofconnfd); 

Close(connfd )； 


29 


30 


31 


exit(0 )； 


32 


code/nelp/echo&erveri c 


12.20 迭代 echo 服务器的主程序 


注意，我们的简宇的 echo 服务器一次只能处理一个客户端。这种类型的服务器一次一个地在荠 
户端间迭代，称为迭代服务器 (iterative server), 在第13章中，我们将学习如何建立更加复杂的并 
发服务器 （concuirentserver)， 它能够同时处理多个客户端。 

最斥图 12.21 展不了 echo 程序的代码，该程序反复读写文本彳」，直到 rto_readlineb 函数在第 
10行遇到 EOF。 


code/nelp/echo. c 


♦(include "esapp.h 


void echo(int connfd) 


5 


n ； 

char buf[MAXLINE] 

riot ri o; 


6 


Rio_readinitb(&rio, connfd); 

while ( fn = Rio_readlineb(buf, trAXLlNE) ) i- 0) { 

received %d bytes\n N , n) 


10 


11 


printf ( 

Rio_wr 丄 te ： Uconnfd, buf 


server 


■ 

t 


14 


code/ne tp/echo.c 


12.21 读和回送文本行的 echo 函数 


旁注：在连接中 EOF 意味 什么？ 

EOF 的概念常常使学生们感到迷惑，尤其是在因特网连接的上下文中，首先，我们需要理解其 
实并没有像 EOF 字符这样的一个 东西。 进一步来说， EOF 是由内核检測到的一种条件*应用程序 

在它接收到一个由 read 函数返回的零返回码时，它就会发现出 EOF 条件.对于磁盘文件，当前文 
件位置超出文件长度时，会发生 EOF a 对于因特网连接，当一个进程关闭连接在它的那一端时，会 
发生 EOR 连接另一端的进程在试围读取流中最后一个字节之后，会检测到 EOF 


9 


12.5 Web 服务器 

迄今为1卜_，我们己经讨论了一个简单的 echo 服务器上下文屮的网络编程。在这一 t] 电，我们将 
向你展小如何利用网络编程的基本概念，来创建你自 d 的虽然小但是功能齐全的 Web 服务器。 
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12.5.1 Web 基础 

Web 客户端和服务器之间的交互用的是一个基于文本的应用级协议 ，叫做 HTTP C Hypertext 
Transfer Protocol, 超文本传输 协议乂 HTTP 是…个简单的协议 6 >个 Web 客户端（就是浏览器） 
打开一个到服务器的因特网连接，并 a 请求某些内容.服务器响应所请求的内容，然后关闭连榇。 
浏览器读取这些内容，并把它昆示在屏幕上 & 

Web 服务和常规的文件检索服务（例如 FTP) 有什么X别呢？主要的民别是 Web 内容可以用- 
种叫做 HTML (Hypertext Markup Language， 超文本标记语言）的语言莱编写。一个 HTML 程序（页) 

包含指令（标£符)，它们告诉浏览器如何显冶这页中的各种文本和图形对象。例如，代码 


<b> Make me bold! </b> 


告诉浏览器用粗体字类型输出<1»和</1)>标记之间的文本。然而， HTML 真 iE 的强大之处在于一个 
页面可以包含指针（超链接)，这些指针可以指向存放在任何因特网主机上的内容。例如， 一 个格式 
如下的 HTML 行 


<a hre£= M http :/ /www 


edu/index-html N >Carnegie Mellone/a> 


emu 


告诉浏览器高亮显示文本对象 “Carnegie Mdlon”， 并且创建一个超链接，它指向存放也 CMU Web 
服务器上叫做 indeUitml 的 HTML 文件， 如果用户单击了这个高亮文本对象，浏览器从 CMU 服务 
器中清决相应的 HTML 文件，并显示它. 


旁注； 万维网的起源 

万维网是 TimBc_-Lee 创建的，他是一位在瑞典物理实脍室 CERN (欧 洲粒子物理研究所） 
工作的软件工程师，1989年， 

能连接“用键组成的笔记的网 （web of notes with 】ink& 广_提出这个系统的 9 的是帮助 CERN 的科 
学家共享和管理信息.在接下来的两年多里 s 
之后，在 CERN 内部以及其他一些网站中， Web 发展出了 .〗、规棋的拥护者，1993年一个关健事件发 
生了， Marc Andwesen (后来劍建了 Netscape) 和他在 NCSA 的同事发布了一种图形化的浏览器， 
叫做 MOSAIC， 可以为三种主要的平台所使用： Unix, Windows 和 Macintoslh 在 MOSAIC 发布后， 
对 Web 的兴趣爆发了， Web 网站以每年10倍或更高的数董增长 * 2002年，已经有超过36 

个世界范围的 Web 网站了（源自 www.netctaft.com 的 NetcraftWeb 调查 k 

12.5.2 Web 内容 

对于 Web 客户端和服务器而 g ， 内容是与一个 MIME (Multipurpose Internet Mail Extensions 
多用途的网际邮件扩充协议）类型相关的字节序列。图 12.22 展示了一些常用的 MIME 类型. 


- Lee 写了一个内部备忘录，提出了一个分布式超文本系统，它 




- Lee 实现了第一个 Web 服务器和 Web 浏览器 


01*101 


MIME 类型 


HTMLSlS 

无格式文本 
PS 文桴 

GIF 格式编码的_:进制图像 
JPEG 格式编码的■一进制图像 

12*22 MIME 类型示例 


text ■■ html 
t ： 

application/postscript 

image/gif 

images jpeg 
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Web 服务器以两种不同的方式向客户端提供 内容： 

• 取一个磁盘文件，并将它的内容返回给客户端，磁盘文件称为静态内容 (static content)* 

而返回文件给客户端的过程称为服务静态内客 （serving static content) e 

• 运行-个可执行文件，并将它的输出返回给客户端。运行时 n 了执行文件产生的输出称为动 

态内容 (dynamic content), 而运行程序并返回它的输出到客户端的过程称为服务动态内容 

(serving dynamic content 

每条由 Web 眼务器返回的内容都是和它管理的某个文件相关联的。这些文件中的每一个都有- _ 

个惟一的名字，叫做 URL (Universal Resource Locator， 通用资源定位符）。例如， URL 


http : //www , aol , com ： 80 /index.html 


表示因特网主机 www+aol.com 上一个称为 /indexAtml 的 HTML 文件，它是由一个监听80端口的 Web 
服务器管理的 & 端口号是可选的，而知名的 HTTP 畎认的端 U 就是80。 可执行 文件的 URL 可以在 
文件名后包括程序参数 & “？”字符分隔文件名和参数，而 n. 每个参数都用“&”字符分隔开> 例如， 


URL 


http: / /kitLyhawk.cmd ,cs ,cmu ■ ec3u:8000/cgi-bin/adder?15000&213 

标识了一个叫做 /cgi-bin/addr 的可执行文件，会带两个参数字符串15000和213来调用它。在事务过 
程中，客户端和服务器使用的是 URL 的小同部分。例如，客户端使用前缀 

http ： //wv?v；. aol .com ： SO 


来决定与哪类服务器联系，服务器在哪儿，以及它监听的端□号是多少。服务器使币后缀 


/index,html 


來发现在它文件系统中的文件，并确定请求的是静态内容 f 还是动态内容。 

关于服务器如何解释一个 URL 的后缀，有三点需要理解： 

• 确定一个 URL 指向的是静态内容还是动态内容没有标准的规则 t 每个服务器对它所管理的 

文件都有&己的规则。一种常见的方法是，确认组 FI 录， 例如 cgi-bih 所有的可执行性 

文件都必须存放这些 g 录中。 

• 后缀中的最开始的那个“广不表示 Unix 的根 n 录。梠反，它表示的是被请求内容类型的主 

0 亲。例如， n 了以将一个服务器配置成这样：所有的静态内容存放在目隶 / usr / httpd/html 下， 
而所有的动态内容都存放在 R ^/usr/https/cgi-biiih。 

• 最小的 URL 后缀是“/”字符，所有服务器将其扩展为某个默认的主页，例如 /index.html。 
这斛释了为什么简单地在浏览器中键入 - 个域名就吋以取 出-个 网站的主页。浏览器在 
URL 后添加缺失的“广，并将之传递给服务器，服务器又把“/”扩展到某个默认的文件 


名。 


12.5.3 HTTP 事务 

因为 HTTP 是基于在因特网连接上传送的文本行的，我们可以使用 Unix 的 TELNET 程序来和 
任何因特网上的 Web 服务器执行事务。对？调试在连接1：通过文本行来与客户端对话的服务器来 
说， TELNET 程序是非常便利的。例如，图 12.23 使用 TELNET 向 AOL Web 服务器请求主页。 
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telnet ww + aol_com 80 Client : open connection to server 
Trying 205.188.146,23 , Telnet prints 3 lines to the teminal 

Connected to aoLcoit* 

Escape character is f A ] J , 

GET / HTTF/1.1 

aolicom 


umx> 


Client : request: line 

Client: required HTTP/1 * 1 header 

empty line terminates headers~ 
Server ： response 1ine 
Server ； followed by five response headers 


host : 


Chen 


8 HTTP/1.0 200 OK 

9 MIME-Versiort : 1,G 

10 Date: Mon, 08 Jan 2001 04:59:42 GMT 

11 Server ： NaviSei:ver/2.0 MLserver/2 - 3 ,3 


12 Consent-Type: text/html Server ： expect HTML in the response body 

13 Content-Length : 42092 


Server ： expect 42 f 092 bytes in the response body 
Server: &mpty line terminates response headers 
Server: first HTML line in response body 
Server: 766 lin&s of HTML not shown . 

Server: last HTML line in response body 
13 Connection cloyed by foreign host, Server : closes connection 

CJlent : closes connection and terminates 


14 


15 <htrnl> 


15 


17 


19 


unix> 


12.23 —个服务静态内容的 HTTP 事务 

在第-行,我们从 Unix shell 运行 TELNET, 要求它打幵一个到 AOL Web 服务器的连接 D TELNET 
向终端打印三行输出，打开连接，然后等待我们输入文本（第5行X每次我们输入一个文本行，并 
键入回车键， TELNET 会读取该行，在后面加上回车和换行符号（在 C 的表示中为 “\r\n ”) T 并且 
将这一行发送到服务器。这是和 HTTP 标准相符的， HTTP 标准要求每个文本行都由一个回车和换 
fr 符对来结束。为了发起事务，我们输入一个 HTTP 清求（第5〜7行)。服务器返回 HTTP 响应（第 
8〜17行)，然后关闭连接（第18行\ 

HTTP 请求 

-个 HTTP 请求的组成是这样的：一个请求行 （request ]i ne )( 第5行 X后面跟随零个或更多 
个请求报头 (requestheader) (第6行)，再跟随一个空的文本行来终止报头列表（第7行 h -个清 
求行的形式是 


<methoc><uri><version> 


HTTP 支持许多不同的方法，包括 GET、POST、OPTIONS, HEAD、PUT, DELETE 和 TRACE 。 

我们将只讨论广为应用的 GET 方法，根据某研究调查，它 A 了 99%的 HTTP 请求 [79]p GET 方法指 
导服务器生成和返回 URI (Uniform Resource Identifier, 统一资源标识符）标识的内容。 URI 是相应 
的 URL 的后缀，包拮文件名和可选的参数 2 

请求行中的 <version> 字段表明了该请求遵循的 HTTP 版本。最新的 HTTP 版本是 HTTP/1.1 [27]. 
HTTP/1.0 是从19%年沿用至今的老版本。 HTTP/U1 定义了一些附加的报头，为诸如缓冲和安全等 
高级特性提供支持，它还支持一种机制，允许客户端和服务器在同一条抟久连接 （pei^istent 


2实际 _ h . M 有当浏览器请求内容时 r 才会这样。如果代理服务器请求内容1那么 UR 〖必须是完整的 URL 
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connection) 上执行多个事务。在实际中，两个版本是互相兼容的，因为 HTTP/1.0 的客户端和服务 
器会简申地忽略 HTTP/1.1 的报头。 

总地來说，第5行的请求行要求服务器取出并返冋 HTML 文件 /iiutex+html。 它也告知服务器请 
求剩卜的部分是 HTTP/1.1 咯式的6 

请求报头为服务器提供广额外的信息，例如浏览器的商标名，或者浏览器理解的 MIME 类型。 
请求报头的格式为 


<header name >： <header data> 


针对我们的 H 的，惟一需要关注的报头是 Host 报头（第6行) t 这个报头在 HTTP/U 请求屮是 
需要的，而在 HTTP/1.0 请求屮是不需要的 D 代理缓存 （proxy cache ) 会使用 Host 报头，这个代理 
缓存有时作为浏览器和管理被请求文件的原始服务器 (origin server ) 的中介 D 客户端和原始服务器 
之间 t 可以有多个代理，即所谓的代理链 （proxychain)。Host 报头中的数据，指示了原始服务器的 
域名，使得代理链中的代理能够判断它是否可以拥有一个被请求内容的本地缓存的副本 D 

继续我们图12,23中的示例，第7行的空文本行〔通过在我们的键盘 t 键入回车键生成的）终 
十.了报头，并指示服务器发送被请求的 HTML 文件。 

HTTP 碘应 

HTTP 响应和 HTTP 请求是相似的 。-个 HTTP 响应的组成是这 样的： 个响应行 (respoiise line) 
(第8行），后面跟随着零个或更多的响应报头 （response header ) (第9〜13行） T 再跟随一个终±报 
头的空行[:第14行），冉龈随一个响应主体 （response body ) (第15〜 f7 行)。-个响应行的格式是 

<versiort> cstatus code> < status message> 

版本字段描述的是响应所递循的 HTTP 版本 4 status code (状态码）是 个二 位的帑数，指明 
对请求的处理。 status message (状态消息）给出弓错误代码等价的英文描述。图 12.24 列出/一些 
常见的状态码，以及它们相应的消息。 

状态消息 


状态代码 


S3 


成功 


处理请 求无误 

内容 C 移动 f 〔位置头屮指明的 i 机上 
1务能理解 i 宵求 
服务器无权访问所请求的文件 
版务器/能找到所请求的文件 
版务褓不支持请求的方法 
服务器不支持请求的版本 


200 


永久移动 
错误* 求 


301 


400 


楚!卜 


403 


未发现 


404 


未实现 

HTTP 版本不支持 




505 


12,24 —些 HTTP 状态码 

第9〜13行的响应报头提供了关于响应的附加信息，针对我们的 n 的，两个最電要的报头& 
Comem-Type (第12行），它告诉客户端响应主体中内容的 MIME 类型； 以及 Corned Length 〔第 

13行乂 用来指小响应主体的字节 大小。 

第14行的终止响应报头的空文本行，其后跟隨着响应主体，响应主体中包含着被请求的内: 
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12.5.4 服务动态内容 

如果我们停下来考虑一下，个服务器是如何向客户端提供动态内容的，就会发现■些问题 * 
例如，客户端如何将稈序参数传递给服务器？服务器如何将这些参数传递给它所创建的 T 进程？服 
务器如何将子进程生成内容所需要的其他信息传递给 T 进程？ 7进程将它的输出发送到哪里？ 一个 
称为 CGI (CommonGatewaybterface^ 通用网关接 U) 的实际标准的出现解决了这钱问 题。 

客户端如何将程序畚数传递 给齦务 雅？ 

GET 请求的参数在 URI 中传递 。 正如我们看到的，个“？”字符分隔了文件名和参数，而每 
个参数都用一个字符分隔幵。参数巾不 允许有 空格，而必须用字符串“％20” 來表^对其 
他特殊字符，也存在着相似的编码^ 

旁注：在 HTTP POST 请求中传遂参数 

HTTP POST 请求中的参教是在请求主体 （request body >中而不是 UW 中侍遂的. 

服务器如何将#敢传递给 f 进程？ 

在服务器接收一个如下的请求后 

GET /cgi-bin/adder?15000&213 HTTP/ 1,1 

它调用 fork 来创建一个子进程，并调用 execve 在进程的 _h h 文中执行 /cgi-bin/adder 程序。像 
adder 这样的程序 T 常常被称为 CG1 程序，闲为它们遵守 CGI 标准的规则 D 而且，因为许多 CGI 程 
序是用 Perl 脚本编写的，所以 CGI 稃序也常被称为 CG1 脚本 (CGI script ) ,在调用 
子 进程将 CGI 环境变量 QUERY .STRING 没置为 “〖5000&213' adder 程序在运行时吋以用 Unix 

getenv 函数來引用它。 

服务器如何将其他倍息传递给 f 进程？ 

CGI 定义了大量的其他环境变量，-个 CGI 程序在它运行时，可以设腎这些环境变1。图 12.25 
给出了其中的 j 部分。 




execve 


环*变量 


述 


mm 

父进程侦听的端 U 
GFT 或 POST 

客户端的域名 

艿户端的点为十进制 IP 地址 
' 只对 POST 而言：清求体的 MIME 类型 . 
只对 POST 而 =: 逋求体的字节大小 


QUERY STRING 
SERV RR_PORT 
REQUEST 一 METHOD 
REMOTE_HOST 
REMOTE 一 ADDR 
CONTENT^ Y PE 
CONTENT LENGTH 


12+25 CGI 环埦变貴示例 


了进程将它的鴇出发送到赛电？ 

-- 个 CGI 程序将它的动态内容发送到标准输出 D 在子进程加载并运行 CGI 程序之前，它使用 
Unix dup2 阐数将标准输出重足向到和客户端相关联的 己连接 描述符6因此，任何 CGI 程序％到标 
准输出的东西都会直接到达客户端。 

注意，因为父进枵不知道子进程屮成的内容的类型或大小，所以子进程就要负责生成 
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Content - type 和 Content - length 响应报头，以及终止报头的空行。 

围 12.26 1承 f 一个简黾的 CGI 程序，它对两个参数求和，并返冋带结果的 HTML 文件给客户 
端。罔 12.27 展示了一个 HTTP 事务，它从 adder 程序提供动态内容. 


code/netp/ti ny/cgi-h in/adder r c 


卄 include 11 csapp - h 


int nain(void) { 

char *buf f *p; 

char argl[MAXLINE}, arg2[MAXLINE], content[MAXLINE] 

int nl = Q f n2^C ? 


3 


/* Extract the two arguments */ 

if ( (buf = getenv( 1, QUERY_STRING M } ) i = NULL) { 

strchr(buf, ^ f )； 

strcpy(argl P buf )； 

strcpy(arg2, p+1); 

nl = atoi ； argl }； 
n2 = atoi ； arg2 ]； 


9 


10 


P 


n 


p 


12 


13 


14 


15 


16 


17 


Make [he response body */ 

yprintf [content, "Welcome to add*com ： 11 ) 


18 


19 


20 


sprintf (content, tt %sTHE Internet addition portal Ar\ncp>' 1 , content]; 
yprint£(content 


?1 


%sThe 

content, nl, r\2 , nl +■ n2) : 


is : %d 


%d = %d\r\n<p> 


n 


answer 


十 


22 


23 


sprintf(content 


%sThanks for visiting! \r\n qi , content); 


ft 


24 


/* Generate the HTTP response */ 

print: f ( ,r Content-length: %d\r\n H , strlen (content)) 
printf("Content-Lype : text/html\r\n\r\n"1; 
printf ( lp %s 

fflushfstdout )； 
exit{0 )； 


^5 


26 


27 


2S 


content); 


3 0 


31 


code/netp/dny/cgi 七 in/adder, c 


12.26 对两个整数求和的 CGf 程序 


unix> ta!nct kit iyha.wk. cir'cl .a emu , edu 8000 Client: open connection 
Trying 128,2. 194 .242 … 

Connected to kittyaawk,cmcl,cs.emu,edu. 

Escape character is 

GET /cgi-bin/ao(ier?15000&2l3 HTTP/1 * 0 Client; request line 

Client: empty line terminates headers 
Server: response line 


4 


HTTP/1.0 200 OK 
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Server Server; identify server 

Adder; expect 115 bytes in response body 

Adder: expect HTML in response body 
Adder: empty line terminates headers 


Server: TLny Web 
Content-length; 115 

Content-type : texL/hLml 


13 


11 


We]cojr»e Lo add - com : THE Internet addition portal. Adder;firstHTML line 

<p>The answer is : 

<p>Thdnks for visiting! 


12 


15213 Adder: second HTML line in response body 

Adder: third HTML line in response body 

Connection closed by Icreign host* Server: closes connection 

Client: doses connection and tertttinutes 


15000 + 213 




14 


15 


unix> 


图 12.27 —个提供动态 HTML 内容的 HTTP 事务 

旁注..在 HTTP POST 诮求中传递参数给 CGI 程序 

对于 POST 请求，于进程也需要重定向标准榆入到已连接樾述符， CGI 根序将从标准褕入中读 
取请求主体中的参數. 


练习 S 12,5 

在11,9节中，我们警告过你关于在网络应用中使用 C 标凑 I/O 函数的危险 Q 然而，图12+26中 
的 CGI 程序却能没有任何3题地使用 标准 MX 为什么呢？ 


12.6 综合 ： Tiny Web 服务器 

我 t 1 通过创建一个虽然小但是功能齐全的称为 Tiny 的 Web 服务器来结柬我们对网络编程的讨 
论。 Tiny 是一个有趣的程序。在短短250行代码中，它结合了许多我们已经学习到的思想，例如进 
程控制、 Unix I/O、套接字接 U 和 HTTP, 虽然它缺乏一个实际服务器所具备的功能性、稳定性和安 
金性，但是它足够用来为实际的 Web 浏览器提供静态和动态内容。我们鼓励你研究它，己实 
现它，将-个实际的浏览器指向你 S 己的服务器，看着它显示一个复杂的带有文本和图片的 Wei/ 贞 
面，真是非常令人兴奋（甚至对我们这些作者来说，也是如此!）。 


Tiny 的 main 程序 


图 12.28 展示了 Tiny 的主程序， Tiny 是- 个 迭代服务器，监听在命令行中确定的端 U 上的连接 
请求，在通过调用 openjistenfd 函数打幵-个监听套接字以 Tiny 执行典型的无限服务器循环， 
反复地接受一个连接请求（第31行)，执行事务（第32行），并关闭连接的它那一端（第33 行)， 


code/n^tp/tiny/tiny^ c 


tiny ,c - A simple，iterative HTTP/1.0 Web server that uses the 
GET method to serve static and dynamic content. 


a 


#inclade "c^app,h 


void doit finL fd )； 
void read_reguesthdrs(rio_t 

int parse^uri(char *uri, char *fiiena^e f char *cgiargs); 


8 


女 
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10 void serve_staLic(int fd, char ilename, int filesise); 

]1 void get_fileLype(char * filename, char *filetype); 

12 void serve—dynamic(int fd f char * filename, char *cgiargs )； 

void alien terror (ifd, char 




char *errnum 

char *shortnisg, char *longmsg); 


★ 


cause 


14 


15 


int main(ijnt argc f char 


16 


17 


18 


inL li^tenEd, conr.fd, port, clientlen 

struct sockaddr ir. clientaddr; 


19 


20 


/* Check command line args */ 

if (argc !- 2) { 

fprintf(stderr, "usage : %s <port>\n M , argv[0]} 

exit(1); 


21 


22 


23 


24 


25 


26 


toi (argv[l] }； 


port 




27 


28 


二 istenfd - Open_listenfd[port )； 

while ⑴ [ 

clientlen 二 sizeof(clientaddr )； 

coimfd = Accept(listenfd, (SA + )^clientaddr, &clienclen) 
doit{connfd); 

Close(connfd); 


29 


30 


31 


33 


34 


35 


code/ne ip/ti ny/tiny. c 


12.28 Tiny Web 服务器 




do[t 甬数 

图 12_29 屮的 doit 喊数处理 ■个 HTTP 事务 ， 首先，我们读 和解析 请求行（第 11 〜 12 行)。注 
意，我们使用阁 1 K 7 中的 riojneadlineb 函数读取请求行;> 


code/ne tp/tiny/tiny, c 


void doiL(int £d) 


int ic; 

strucL stat sbuf ; 

Char buf[MAXLINE] f method ； MAXLINE] ; uri[MAKL1NE], version[MAXLINE] : 
char Eilename[MAXLINE], cgiargs[MAXLTNE] ； 

r io_. t rio ； 


4 


/* Read request line and headers */ 

Rio_readinitb{^rio, fd); 


10 




Rio_read 丄 ineb(&rio, bui f MAXLINE); 

扫 scanf fbuf 


%s %s %s n ； method, 
i£ (strcasecmp (method, 11 GET n ))( 

clienterror(td, method 


uri, version 


.1 


13 


14 


531 


Wot Implemented" 
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72； 


15 


Tiny does not implement this method 11 ); 


16 


return ； 


17 


18 


reati_requesthdrs tirio }； 


19 


I* Parse URI from GET requesE V 

is static 


20 


21 


parse_uri(uri, filename 
if {stat ( filename, 

clienterror (fdp f i 1 enaiwe 


cgiargs ,； 




22 


0) { 


< 


23 


Hot found 
Tiny couldn 3 t find this file N ) 


404 


n 


n 


f 


24 


25 


return ； 


26 


27 


28 


if {is_staiic) { Serve static content 

if ；!(S_ISREGIsbuf.st_mode)) I I !<S 〜工 RUSR & shut, at_mode)) 

clienterror( td f filename, "403 


23 


3D 


Forbidden 
Tiny couldn' t read the £ile n ); 


31 


32 


return 


33 


34 


serve_static f fd, filenarre, 3 buf .st_size); 


35 


36 


else { /* Serve dynamic content 45 / 

if {! [S_ISREG (sbuf , st_mode) ) If I (S^IXUSR & sbuf-st 一 mode) :■ { 

clienterror(fd, filename 


3^ 


38 


403 


Forbidden .、 
Tiny couldrT t run the CGI program 1 '} 


39 


40 


return 


4 ： 


42 


serve_dynajttic ( f d, filename, cgiargs )； 


43 


44 


code/netp/tiny/tiny + c 


12.29 Tiny doit : 处理一个 HTTP 事务 

Tiny 只支持 GET 方法。如果客户端请求其他方法（比如 POST )， 我们发送给它一个错误信息, 
并返回到主程序（第13〜17行)，主程序随后关闭连接并等待下一个连接请求。否则，我们读并且 
(像我们将要看到的那样）忽略任何请求报头（第18行)。 

然后，我们将 URI 解析为一个文件名和一个可能为空的 CGI 参 数串， 并且我们设1 一个标志, 

表明请求的是静态内容还是动态内容（第21行)。如果文件在磁盘上+存我们立即发送…个错 
误信息给客户端，并返回（第22〜26行)。 

最后，如果请求的是静态内容，我们就核实该文件是一个 f 迺文件，而我们是有读权限的（第 
29行)。如果是这样 t 我们就向客尸端提供静态内容。相似地，如果请求的是动态内容< 我们就核 
实该文件是可执行文件（第37行) T 如果是这样，我们就继续 t 并 Jl 提供动态内容（第42行)。 


clienterror 两歎 


Tiny 缺乏一个实际服务器的许多错误处理特性，然而，它会检查一些明显的错误，并把它们报 
告给客户端&图 12.30 中的 clienierror 函数发送-个 HTTP 响应到客户端，在响应行中包含相应的状 
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态码和状态消总，以及响应主体中的一个 HTML 文件，向浏览器的用户解秤这个错误。 


code/netp/tiny/tiny. c 


void clientcrr or { n ri t t6, char 


char *erEm；m 

char *short^isgj char ^longmsg) 


女 


cause 


f 


chat buf[MAxrjNi], body[MA xbuf ]； 


Build the HTTP response body */ 

sprint f I body P itt e>Tiny Error</title> ir ); 

>\r\n\ body ); 

shorLmsg); 

sprintf {"body, : %s\ r\n^ f body, 1 ongmsg, cause )； 

sprint f (body, ,, %s<hrxem>The Tiny Wab server</em>\r \n 1p f body}; 


sprint f (body, ,p iscbody bgcol or= Ylii ffztfi 
spiinLf(body, %s\r\n n , body 


3 


ii n 


erinurn 


10 


11 


12 


/* Print the HTTP response */ 

yprintf[buf ； M HTTP/1,0 %s\r\n H 

Rio_writen(fd, buf, strlen(bu£)} : 

sprinLf(bu£ 

Rio m wriLcn{Ed, buf f strlen(buf )); 
sprint E (buf , n Content-1 ength: %d\r\n\r\n 11 f strl en (body) i ; 
Rio_writen(£d ； buf f strIen (buf )); 

Rio_writen(£d, body f strlen(body)1 ； 


13 


14 


shortmyg ) : 


errnum 




15 


16 


Content-type : text/htmi\r\n u )； 


/ 


13 


19 


20 


21 


code/netp/tiny/thiy. c 


12.30 Tinyclienterror : 向客户端发送一个出错消息 

回想-下， HTML 响应应改指明主体巾内容的大小和类型。因此，我们选择创建 HTML 内容为 
个字符串（第7〜11行），这样-来我们可以简单地确定它的大小（第18行）。还亿请注意我们 
为所有的输出使用的都黾图 1 U 中健壮的 rio writen 函数。 




r*ad_requesthdrs iSJfc 


Tiny 小使用请求报尖中的任 M 信息 d 它仅仅调用图 12.31 巾的 iead_requesthdrs 凼数来读取并忽 
略这些报头。注意，终 lh 请求报头的空文本行居 由回车 和换行符对组成的，我们在第6行屮检查它。 


cod6/ne tp/ti ny/tin\\ c 


vcid read_requesthdrs(rio_t ^rp) 


char bufI MAXLINE }； 


4 


Rio_read]Lneb(ip ^ buf f MAXLTME); 
whi 1 e(ytrcmp(buf 

Rio_reaclineb(rp f buf, MAXLINE); 


\r\n !l } 


return ； 


code/netp/t iny/tin\\c 


'2*31 Tiny read . requesthdrs ： 读取并 忽略请 求报实 
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parse 一 un 


Tiny 假设静态内容的主目录就是它的当前□录，而可执行文件的主 H 录是 + / cgi-biru 任何包含字 
符串 cgi - bin 的 URI 都会被认为表示的是对动态内容的请求。默认的文件名是 Thome.htmh 

12.32 中的 parse _ uri 函数实现 r 这些策略。它将 URI 解析为一个文件名和一个町选的 CGI 
参数串。如果请求的是静态内容（第5行)，我们将清除 CGI 参数串（第6行)，然后将 URI 转換为 
一个相对的 Unix 路径名，例如 ./indexJitml (第7〜8行)。如果 URI 是用结尾的（第9行），我 
们将把默认的文件名加在后面（第10行)。另一方面，如果请求的是动态内容（第13行)，我们就 
会抽取出所有的 CGI 参数（第14〜20行），并将 URI 剩下的部分转换为一个相对的 Unix 文件名（第 
21〜22行）。 


code/netp/tiny/tiny\ c 


int p 彐 rs6_uri 丨 char 


uri, char * filename, char *cgia.rgs) 


char *ptr; 


4 


if ( l strstr(uri f 

strcpy(cgiargs 
strcpy(filename, ■，■ H ); 
strcat(filename, uri); 

if (uri[strlen(uri)-1] == 1 / f ) 

strcat (filename, M home .html 11 ); 


cgi-bin M ) ) ' Static content */ 


i| M 


(; 


j 


10 


11 


return 1 ; 


12 


13 


else { /* Dynamic content */ 

ptr = index(uri, f ?')； 
if (ptr) { 

strcpy ( cgiargs , ptr+1>; 

*ptr = f \0 f ; 


14 


15 


16 


17 


18 


19 


else 


20 


sLicpy(cgiargs 
strcpy (filename, n 
sLircat (filename, uri); 

return 0; 


21 


) 


w 

I 


22 


23 


24 


25 } 


code/netp/liny/tiny. c 


12.32 Tiny parsejj 『 i : 解析一个 HTTP URI 


serve _ static 


Tiny 提供四神不冋类型的静态内容， HTML 文件，无格式的文本文付，以及编码为 GIF 和 JPG 
格式的图片 □ 这些文件类型占据 Web 上提供的绝大部分静态内容。 

]2.33 中的 serve^stauc 峨数发送一个 HTTP 响应，其卞.体包含个本地文件的内容 D 首先 T 
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我们通过检查文件名的后缀束判断文件类型（第 7 行），并 「 i 发送响应行和响应报头给客户端（第 
12行乂注意用一个空行终」 L 报头， 


code/netp/tiny/tiny.c 


void aerve_stat ic tint fd r char *f ilename F int filesise) 


2 


inL yrefd ； 

char *srcp f filetype[MAXLINE], tuf[MAXBUF] 


/ + Send response headers to client 

get_f i ";etype(f i Icname, f iletype); 
spr intf (but H l( HTTP/1 , 0 20d OK\r\n pl } - 
sprinLf(buf 


%sServer ： Tiny Web Server\r\n 
ypri nt f (buf ； h %sCont ent - length: %d\i \n 1 ', buf f filesi 乙 e); 

sprint f (buf, M %sConc.ent-Lype: %s\r 、 n\r\n n ! buf, £i letype); 


buf t ; 


n 


t 


10 


11 


Rio_writen(fd, buf f ^trlen(buf)) 


13 


/* Send response body to client 

srefd - Open(f i lcname, 0_RD01^LY, 0); 

srep = Mmap (0 / f ilesi ze f ?ROT_READ, MAP__PRrVA r rE f srefd, 0 ); 

Close(srcfd); 

Rio_writen{fd P srep, filesi ze ) : 

Munmap(srcp f filesize ); 


14 


15 


16 


18 


21 


22 


get_filetype - derive file type from file name 


24 


void geL_filetype(char *fi1enane P char *filetype) 


26 


if (sirstr(filcnamG 


7:1 


.html I， >) 


\i 


f 


28 


stircpy ( f ileLype, "'text/htnl u )； 

cl sc j f I y trstr ( filename, n . c 1 f ,r ) } 

SLrcpy{filetypGr "image/gif"1; 

else if istrstr ( Eiienai^e 


29 


30 


31 


jpg 11 )) 

strepy ( fi] etype, M image/jpeg ,p } 


32 


3J 


else 


sLicpy ( f i letype. IP uexL/plain 11 )； 


35 


code/netp/tiny/tiny.c 


12.33 Tinyservejtatic ： 为客户端提供静态内容 

接着，我们将被请求文件的内容拷贝到 C 连接描述符 fd, 来发送响应 i 体（第 15〜19 行)。这 
卑的代码是比较微妙的，耑要仔细研究。第 t 5 行为读打幵了 fitename , 汴获得了它的描述符。在第 
16 行， UnkmmapM 数将被请求文件映射到-个虚拟存储器空间。 [ p 1 想我们在第 10.8 节中对 mtrnp 
的 i 寸论，调用 mmap 将文件 srefd 的前 fi lesize 个字节映射到一个从地址 srcp 丌始的私有只读虚拟存 
储器区域。 
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一旦我们将文件映射到存储器，我们就不再需要它的描述符了，所以我们关闭文件 t 第 n 行)。 
执行这项任务失败将导致一种潜在的致命 的存储 器泄漏。第18行执行的是到客户端的实阮文件传 

送。 rio.writen 函数拷贝从 S rcp 位置开始的 filesizc 个字节（它们当然己经被映射到了所请求的文件) 

到客户端的6连接描 述符。 最后，第19行释放了映射的虚拟存储器丙域。这对千避免一个潜在的致 
命的存储器泄漏是很重要的， 


m 


dyn 


serve 


Tiny 通过派生一个子进稈并在 户进 程的上 F 文中运行一个 CGI 稈序，來提供各种类型的动态内 


容 


1134中的 serve _ dynamic 函数一汗始就向客户端发送一个表明成功的响应行（第6〜7行)， 
同时还包括带有信息的 Server 报头（第3〜9行)。 CGI 程序负责发送响应的剩佘部分。注意，这并 
不像我们寸能希望的那样健什，因为它没有考虑到 CGI 程序可能会遇到某些错误的吋能性。 


cock/ne tp/t iny/t iny r c 


void serve 一 dynamic(int fd f char * filename, char ^cgiargs) 


2 


char bu£[MAXLINE] P *emptylist i) 


[NOLL }; 


4 


产 Return first part of HTTP xesponse */ 

sprirttf (buf, "HTTP/1 + 0 20D OK\r\n fl ); 

Rio^writen(fd, bu：, ^trlen(buf)) 
sprintf (buf F "Server: Tiny Web Server\r\n ]l ]； 
Rio_wi:iten (f buf ； strlen (buf)) 7 


m 

I 


10 


11 


if (Forkt) == 0) ( /* child V 

"Real server would set all CGI vars here */ 

setenv( ,f QUERY_STRING n , cgiargti, 1 )； 

Dup2(fd, STDOUT^FILENO); 

Execve (f i lename, emptyli^t ； environ) : /* Run CGI program */ 


1.2 


13 


14 


/* Redirect stdout 10 client */ 


15 


16 


1 7 


Wait (HULL] ； /* Parent waits for and reaps child +/ 


18 } 


codeMetp/tinyftiny. c 


12—34 Tiny serve _ dynomic : 为客户端提供动态内容 

在发送了响应的第-部分后，我们会派生一个新的子进程〔第1〖行），了进稈用来自请求 URI 
的 CGI 参数初始化 QUERYJTRING 环境变1 ( 第13行乂注意，-个真正的服务器将还要在此处 

设置其他的 CGI 环境变量。为了简短，我们省略了这一步。还有，我们注意到 Solaris 系统使用的 
是 putenv 函数，而不是 setenv 函数。 

接下来，子进程重定向它的标准输出到已连接文件描述符（第14行)，然后加载并运行 CGI 程 
序（第15 行)。 因为 CGI 程序运行在了-进程的上下文中，它能够访问在调用 

在的相同的打开文件和环境变量。因此， CGI 程序写到标准输出 h 的任何东西都将汽接送到客户端 
进程，不会经过任何父进程的 F 涉。 

其间，父进程阻寒在对 wah 的调用中，等待当 T 进程终 [[: 的时候，回收操作系统分配给 -f 进程 
的资源（第17行乂 




函数之前就存 


exeeve 
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旁注：处理过早关闭的连接 

尽管—个 Web 服务器的基本功能非常简单，忸是我们不想 ifr 你一个傲象，以为编箄一个实际的 
Web 服务器是非常 简单的 。构造一个运行很长时间而不崩溃的健壮的 Web 戚务器是任务， 
比起在这里我们已经学习了的内容，它要求对 Unk 系统編赛有一个更加深入的理解。例如，如果一 
个服务器写一个已经被客户端关闭了的连接（比如说，因为你在你的浏览器上羊击了 “Stop 
那么第一次这样的写会正常返0，但是第二次写就会引起发送 SKJPIPE 信号，、这个信号的默认行为 




就是咚止这个进租.如果捕获或者忽略 SIGPIPE 信号，环么第二次写#作会返田值 - i , 并将 

和 perror 函教挎 EP 1 PB 错议报告为 "Brokeii ppc * ^这是一个迷惑了很多届学 


设置为 EPIPE 

生的不太直观的信息，总地来说， 一 个健壮的默务器必须捕获这4 SIGPIPE 信号，并且检査 write 


函数调用是否有 


12.7 小结 

每个网络应用都是基于客户端-服务器模型的。根据这个模型，一个应用是由 -个服 务器和 -- 个 
或多个客户端组成的。服务器管理资源，以某种方式操作资源，为它的客户端提供服务。客户端- 
服务器模型中的基本操作是客户端-服务器事务，它是由客户端请求和跟随的服务器响应组成的， 

客户端和服务器通过因特网这个全球网络来通信 & 从一个程序员的观点来看，我们可以把因特 
网看成是一个全球范围的主机集合，具有以 F 儿个属性：每个因特网都有一个惟一的32位名字，称 
为它的 IP 地址； IP 地址的集合映射为一个因特网域名的 集合； 不同因特网主机上的进程能够通过 
连接互相通俏。 

客广端和服务器通过使用套接字接 U 建立连接。套接宇是连接的端点，对应用程序宋说，连接 

是以文件描述符的形式出现的。食接字接口提供了打开和关闭套接字描述符的函数。客户端和服务 
器通过读写这些描述符来实现彼此间的通信， 

Web 服务器使用 HTTP 协议和它们的客户端（例如汍览器）彼此通信。浏览器向服务器请求静 
态或者动态的内容。对静态内容的请求是通过从服务器磁盘取得文件并把它返回给客户端来服务的。 
对动态内容的 请求是 通过在服务器I: ■■个了进程的丄下文中运行一个程序并将它的输出返回给客户 
端来服务的 D CGI 标准提供了组规则，来管理客广端如何将程序参数传递给服务器，服务器如何 


只用几百行 C 代码就能实现- 个简单 但是有功效的 Web 服务器，它既可以提供静态内容，也可 
以提供动态内荐。 

参考文献说明 

官方的有关因特网的信息源被保存在一系列的可免费获取的带编号的文档 RFC [Requests for 
Comments , 请求注解， Internet 标准（草案)]中。在以 f 网站可获得町搜索的 RFC 的索引： 


http://www* rfc-editor , org/rfc-html 


RFC 通常是为因特网基础设施的开发者编写的，因此，对于普通读者来说，往往过于洋细了。 

然而，作为权威倍息 T 没有比它更好的资源了。 HITP /1 .I 协议 ie 录在 RFC 2616中。 MIME 类型的 
权威列表保 存在： 
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ftpi//ftp,isi,edu/ia-nctea/iana/assignments/media-types/media — types 


关 F 计算机网络 互联冇 人量好的文献 [44, 58, 84]。 伟大的技术作家 W . Richard SteveftS 编写了 
一系列关于诸如高级 Unix 编程 P 6]、 闲特 网协议[77, 78, 79]，以及 Unix 网络编程 [81, 80] 之类论 
题的缒典文献。认真学习 Unix 系统编程的学生会想要研究所有这些内容 4 不幸的是， Stevens 在1999 
年9片1「 I 逝世。我们会远紀念他的贡献。 


家庭作业 


12.6 ♦♦ 

A. 修改 Tiny 使得它会原样返回每个请求行和请求报头 

B. 使用你喜欢的浏览器向 Tiny 发送一个对静态内容的请求，把 Tiny 的输出记录到一个文件中。 
C+ 检查 Tiny 的输出，确定你的浏览器使用的 HTTP 的版本。 

D . 参考 RFC 2616 中的 HTTP / U 标准，确定你的浏览器的 HTTP 请求中每个报头的含义。你可 
以从 www . rfc - editor . org/rfclUinl 获得 RFC 2616。 
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扩展 Tin 、 使得它可以提供 MPG 视频文件。使甲一个真汜的浏览器来检验你的丄作。 

12,8 ♦♦ 

修改 Tin y , 使得它在 SIGCHLD 处理稈序中回收操作系统分配给 CGI 7进稈的资源，而不是显 
式地等待它们终 


12.9 ♦♦ 

修改 Tiny t 使得当它跟务静态 内弊时 ，使 ffl maUoc 、 rk ^ jeadn 和 rio ^ writen * 而不是 mmap 和 
rio . writen f 来拷 W 被请求文件到已连接描述符。 

12.10 ♦♦ 

A . 写出图 12 J 6 中 CGI adder 函数的 HTML 表单。你的表单应该包括两个文本框，用户将需要 
相加的两个数字填迮这个两个文本框中，你的表单应该使用 GET 方法请求内容。 

B . 片这样的方法来检 t 你的稈序：使用一个真正的浏览器向 Tiny 清求表单，向 Tiny 提交填巧 
好的表单，然后显禾 adder 生成的动态内容。 

12.11 ♦♦ 

扩展 Tiny , 以支持 HTTP HEAD 方法，使用 TELNET 作为 Web 客户端来验证你的 I ：作。 

12.12 ♦♦♦ 


扩展 Tiny f 使得它服务以 HTTP POST 方式请求的动态内容 D 使用你喜欢的 Web 浏览器来验 iff 


你的:[作 


12.13 ♦♦命 

修改 Tiny 、 使得它可以 T •净地处理（而不是终止 ） til write 函数试 图写- 个过早 关闭的 连接时 
发生的 SIGPIPE 信号和 EPIPE 错误。 
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练习题答案 

练习题12+1答案 


点分十进制地址 


十六进制地址 




?55.255.255.25^ 


Oxffffffff 


I 


OK^fGOOQO 


127 1 


xcdbcaO - r 


205.188.160.12 ； 


Gx400c950d 


64.12.143.13 


2C^13e.146.23 


0xcdbc9217 


练习题 12.2 答案 


ccde/netp/hex2dd, c 


^include 11 csapp - h 


int mair. ( int argc p char * *aigv) 


/* addt in network byte order */ 
产 addr in host byte order */ 


struct: in_adtir inaddr; 
unsigned int addr; 


5 


if Urge != 2) { 

Eprint f (stderr, "usage: %s <hex nLirnber>\n ir f argv [ 0]); 
exit (0); 


9 


10 


11 


12 


(argv[l] , iY %x u , iaddr) 

inaddr* s_addr 

prin[f ( Yt %^\n u 


sscan 


13 


htonl(addr )； 

inet_ntoa(inaddr ))； 


14 


15 


16 


exit(0) 


17 


code/netp/hex2dd. c 


练习题 12.3 答案 


code/m tp/dd2hex. c 


#include esapp .h 


3 


int mdin(int arge 


har x *argv) 


struct i n_addr inaddr ； addr in network byte order */ 

/* addr in host byte order */ 


unsigned int addr ； 


if large I = 2) { 

Eprintf(stderr 


usage : %s <dotted-de-imal>\n 


argv[0]); 
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10 


exit (0) 


11 


12 


13 


if {inet_aton (a.rgv [ 1 ] , Stindddr)= 

app_error ( 1 inet_aton error" 1 } : 

ntohl(inaddr*s_addr ]； 
printf( n 0x%x\n n , addr )； 


0) 


14 


15 


addr 




16 


17 


18 


exit i:0); 


19 


codeMe tp/dd2hex + c 


练习® 12,4 答案 

每次我们请求 aoLcom 的主机条目时，相应的因特网地址列表以一种不 NI 的、轮转 （round-mbin) 
的顺序返回。 


, /hosiinfo aol 
official hostname : aol - com 
address : 205*188.146,23 
address : 205,138,160.121 
address ： 64.12,149,13 


unix> 


com 


umx» . /hostinfo aoi 
official hostname ： aol,com 
address : 64,12.149,13 
address ： 205.188.146,23 
address: 205*188.160,12 ： 


com 


unix>> ,/hostinfo aol 
official hostname ： aol.com 
address : 205.188,146,23 
address: 205 - 188.160.12 ： 
address i 64.12.149.13 


com 


在不同 DNS 査询中，返回地址的不同顺序称为 DNS 轮转 （DNS roun^robin), 它可以用来对 
一个大量使用的域名的请求做负载平衡 t 

练习® 12.5 答案 

标准 I/O 能在 CG〖 枵序里丄作的原因是，在 了进 程中运行的 CGI 程序不需要显式地关闭它的输 
入输出流。3子进程终止时，内核会 H 动关闭 所有描 述符。 
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13.〗 基于进程的并发编程 

13.2 基于 I / O 多路复用的并发编程 

13.3 基于线程的并发编程 

13.4 多线程程序中的共享变置 

13.5 用信号置同步线程 

13-6 综合：基于预线程化的并发服务器 

13.7 其他并发性问题 

1 3.8 小结 
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744 


749 


752 


762 


765 


772 
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正 如我们第 8 章学到的，如果逻辑控制流在时间上重#，那么它们就 是并发 （ concurrent) 的。 
迭种一般觇象，称为 并发性 （ concurrency), 出现在计算机系统的 i 々多小 同层面巾。硬件异常处理程 
序、进程和 Unix 信号处理程宇都是大家很熟悉的例了、 

到 h 前为止*我们主要将并发性苕做是一种内核用来运行多个应用程序的策略。 m 是，并发性 
+仅■(乂局限于内核，它也可以在应用程序巾扮演重要角色。例如，我们 e 经看到 Unk 倌号处理程序 
如何允许应响应异步事件，例如用户键入 Ctr]-C T 或者裎序访问虚拟存储器 （memory ) 的-个未 

定义的区域。应用级并行在其他情况下也是很冇 用的： 

• 在多处理器上进行并行 计算， 在只有 -- 个 CPU 的 单处理器上， 并发流是交衿的， 在 任何时 

间社,都只有个流在 CPU 上1 实际执行。然而，那些有多个 CPU 的机器，称为 多处理 
器，可 以真止地同时执行多个流。被分成并发流 的并行启用， 在这样的机器 卜1 能够运行得 
快很多。这对大规模数据库和科学应用尤 为重要 。 

• 访 问慢速 I/O 设备。3 —个应用 f 在等待来 h 慢速 I/O 设备（例如磁盘）的数据到达时，内 

核会运行其他进稈，使 CPU 保持 繁忙。 每个应用都可以以类似的方式，通过交荇执行 1/0 
请求和其他有用的丄作，来使用并发性 e 

. 与人交互。和计算机交互的人要求计算机同时执行多个任务的能力。例如.他们在打印一 

个文裆时，可能想要调牿一个窗口的大小。现代视窗系统利用并发性来提供这种能力。每 
次用户请求某种操作（比如说通过争击鼠标）时，一个独立的并发逻辑流被创建来执行这 


个操作 


* 通过推迟工作以减少执行时间： 有时，应用程序能够通过推迟其他操作并同时执行它们， 

利用并发性来降低某些操作的延迟 s 比如，一个动态存储分配器叮以通过推 迟与一个运行 
在较低优先级 I :的并发“合并"流的合并 (coalescing), 使用空 闲时的 CPU 周期 t 来降低 
笮个 free 操作的延返。 

• 服务多个网络客户端。 我们在第 12 章中学习的迭代 I iterative) 网络服务器是不现实的，因 
为它们次只能为个客户端提供眼务 D 因此，一个慢速的客户端可能会导致服务器拒绝 
为所有其他客户端服务，对于一个真正的服务器来说，叮能期望它每秒为成百上千的客广 
端提供服务，一个慢速客户端导致 ft ! 绝为其他客户端服务，这是不能接受的。一个更好的 
方法是创建一个井发服务器，它为每个客户端创建各自独立的逻辑流 D 这就允许服务器同 
时为多个客户端服务，并且这也避免了慢速客户端 独占服 务器， 

使用应 用级并 没的应用程序称为并发程序 (concurrentprogram), 现代操作系统提供了-种基本 
的构造丼发程序的 方法： 

• 进程。用这种方法，每个逻辑控制流都是一个进 枰， 由內核束调度和维护。因为进程冇独 

立的虚拟地址空间，想要和 其他流 通信，榨制流必须使用某种显式的进程间通信 


(interpTOcessi communication, IPC^ 机制 


I / O 多路复 用。在这种形八的并发编程中，应用程序在一个进程的上 K 文巾显式地调度它 
们卜: 己的逻辑流。逻辑流被模型化为状态机，作为数据到达文件描述符的结果，卞程序显 
式地从一个状态转换到另一个状态 5 达为程序是 x 单独的进程，所以所有的流都共享冋 
一个地址空间， 


线程。 线枵是运行在-个笋一进稈上卜文中的逻辑流，由内核进行调度。你⑴以把线程看 
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成是其他两种方式的混合体，像进程流一桴由内核进行调度，而像 I / O 多路复用沆一样共 
享同一个虚拟地址空间。 

本章研 究这二 种不同的并发编程技术。为了使我们的讨论比较具体，我们始终以同一个应用为 
— I 2 A 9 节中的迭代 echo 服务器的并发版本。 


13.1 基于进程的并发编程 


构造并发程序最简笮的方法就是用进程，使用那些大家都很熟悉的函数，像 fork 、 exec 和 waitpict 。 
例如 1 …个构造弁发服务器的 S 然方法就是，在父进程中接受客户端连接请求，然后创建一个新的 
子进程来为每个新客户端提供服务。 

为了了解这是如何工作的，假设我们有两个客户端和…个服务器，服务器正在监听一个监听描 
述符（比如说是 3) 上的连接请求，现在假设服务器接受了客户端1的连接谓求，并返回- 个 已述 
接描述符（比如说是4)，如图 13.1 所小， 


E3 - 


连接请求 






clientfd 


服务器 




:户端 2 


clientfd 


—步：服务器接受客户端的连接请求 

在接受连接请求之后，服务器派生一个子进程，这个子进程获得服务器描述符表的完整拷贝^ 
子进程关闭它的监听描述符3,而父进程关闭它的已连接插述符4,因为不再需要这些描述符了。这 
就得到了图 13.2 中的状态.其中子进程 IE 忙于为客户端提供垠务。 


13 J 


: -1 


L ； 


子进程1 


数据传送 


connfd(4) 


客户端1 


listenfd(3) 


clientfd 


㈣ 


I 客户端2 
!-■ P 


clientfd 


二步：服务器派生一个子进程为客户端服务 

因为父、子进程中的已连接描述符都指向同一个文件表表项，所以父进程关闭它的已连接描述 
符是至关重要的。否则，将永不会释放已连接描述符4的文件表条目，而； L 由此引起的存储器泄漏 


13.2 
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将最终消耗可用的存储器空 间， 并摧毁系统 t 

现在，假设在父进程为客户端1创建进程之后，它接受 r 一个新的客户端2的连接请求， 
并返回一个新的已连接描述符（比如说是5)，如图 13.3 所示。 


于进程1 


数据传送 


Snnnfd !^ ) 


客户端1 


iistenfd ⑶ 


clientf ^ 


1 服务器 


cc?rmld (B} 


I 客户端 2 1 


连接请求 


clientfi 


图〗 3.3 第 三步： 服务器接受另一个连接请求 

然后，父进程乂派生一个子进程，使子进程用已连接描述符5为它的客户端提供服务，如图 
13.4 所示，此时，父进稈正在等待下个连接请求，而两个 T 进程正在同时为他们各 H 的客户端提 
供服务。 


子进程1 


数据传送 


connfd(4) 


客户端1 


listtnfd(3) 


client f 3 


1 mm I 


客户端 2 


数据堉求 


cl ienLf.l 


子进程 2 


connfd [5f 


13.4 第 四步： 服务器派生另一个子进程为新的客户端服务 


13.1.1 基干进程的并发服务器 

SI 13.5 展小了-个基于进程的并发 echo 服务器的代码。 


code/conc/echoserverp, c 


#mcLucle 


CBapp . h 11 

void echo(int connfd )； 


4 


void sigchld_handler(int sig) 


while ( waitpid (-1, 0, 刪 OHAMG ) > 0) 


7 


return? 
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10 


int main(int argc r char **argv] 


12 


int listenfd, connfd ； port:, cl ientlen=sizeof (struct sockaddr_in) 
struct sockaddr in clientaddr; 


13 


14 


IS 


if large 1= 2) { 

fprintf(stderr f "usage ： %s <port>\n M f argv[0]) 
exit(0); 


16 


1? 


18 


19 


20 


port = atoitargv[l]) 


21 


Signal(SIGCHLD, sigchld_handler); 

1istenid = Open_listenfd(port )； 
while tl) { 

cormfd = Accept ^listen£d f (SA *} fitclientaddi:^ ^clientlen) 
if (Fork[) == 0) { 

Close flistenfd) ； Child closes its listening socket *1 

echo(connfd )； 

Closeiconnfd); 

exit (0)； 


22 


23 


24 


25 


26 


27 


/* Child services client */ 


28 


/* Child closes connection with client *1 

/* Child exited 


29 


3Q 


31 


/* Parent doses connected socket (important!) *1 


Close(connfd }； 


35 


34 


code/conc/echoserverp. c 


13.5 基于进程的并发 echo 服务器 




父迸程派牛 ( fort ) 一个子 进稈来处理每个新的连接请求, 


第28行调用的 echo 函数来自于图 12.2U 关于这个服务器，有几点重要内容需要 说明： 

• 首先，通常服务器会运行很长的时间，所以我们需要包括-■个 S1GCHLD 处理程序，来回 

收值死 (zombieH ■进程的资源（第4〜9行)。因为当 SIGCHLD 处理程序执行时， S1GCHLD 

信号是阻塞的，而 Unix 信号是不排队的，所以 SIGCHLD 处理程序必须准备好回收多个值 
死子进稈的资源。 

* 其次，父子进程必须关闭它们各自的 connfd (分别为第 32 行和第 29 行）拷贝 e 就像我们 

己经提到过的，这对父进程而言尤为重要，它必须关闭它的已连接推述符，以避免存储器 


泄漏 


最后，因为套接字的文件表灰项中的引用计数，裒到父子进程的 coimftl 都关闭了，到客户 
端的连接才会终止 4 


13.1,2 关干进程的优劣 

讨于在父、 T 进稈间共享状态信息，进程有一个非常清晰的 模型： 共享文件表，但是不共享用 
户地址空间。有独立的进程地址空间既是优点，也是缺点 6 这样 - 来，-个进程不可能不小心覆盖 
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另一个进稈的虚拟存储器，这就消除了许多令人迷惑的错误——这是一个明显的优点 n 

另一方面，独立的地址空间使得进程共享状态信息变得更加困难。为了共享倍息，它们必须使 
用祕乂的 IPC (进稈间通信）机制。基于进程的设计的另一个缺点是，它们往往比较慢，因为进程 
控制和 IPC 的开销很商 c 


旁注 ： Unix IPC 

在本书中，你已经逷到好几个 IPC 的例子了，第 8 聿中的 waitpid 函数和 Unix 信号是基本的 IPC 
机制，它们允许进程发送小消息到同一主机上的其他进租.第 12 幸的套接字是 IPC 的一种重要形 
式，它允许不同主机上的进租交换任意的字节洸.然而，术语 UnixIPC 通常指的是所有允许进租和 
同一台主机上其他进程进行通信的技术，其中包括管道、先进先出< 

以及系统 V 信号这些机制超出了我钔的讨论范闽. Stevens 的著作 [80] 是很好的参考资料 


X系蜣V共享存儋器， 


laid 


练习 S 13.1 

在图 13.5 中，并犮服务器的第32行上，父进程关闭了已连接描述符后，子进程仍然能够使用 
该描述符和客户端通信。为什么？ 


练习题 13.2 

如果我们要删除图 13.5 中关闭已连接描述符的第29行，从没有存储器泄漏的角度来说，代码 

将仍然是正确的。为什么？ 


13.2 基于 I / O 多路复用的并发编程 

假设耍求你编写一个 echo 服务器，它也能对用户从标准输入键入的交互命令做出响应。在这种 

情况下*服务器必须响应两个互相独立的 I / O 事 ft : 网络客户端发起连接请求；用广在键盘上键入 

命令行。我们无等待哪个事件呢？没有哪个选择是理想的。如果我们在 acapt 中等待个连接请求, 

我们就不能响应输入的命令6类似地，如果我们在 Tead 中等待一个输入命令 T 我们就不能响应仟何 
迮接请求。 

计对这种困境的一个解决办法就是 I / O 多路复用 （ I/O multiplexing ) 技术。基本的思路就是使 
用 select 函数，要求内核挂起进程，只冇在一个或多个 I / O 事件发生后，才将控制返回给应用程序, 
就像在下面的示例中 - 样 r 

* 当集合 {0, 4} 中任意描述符准备好读时返回。 

* 当集合 fl ， 2, 7} 中任意描述符准备好写时返画。 

* 如果在等待一个 I / O 事件发生时过了 152.13 秒，就 超时。 

select 个复杂的函数，有许多不同的使用模式。我们将只讨论第一种 模式： 等待组描述 

符准备好读。全面的付论请参考[76, 81]。 


# include <unistd.h> 

# include <sys/types.h> 
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int select(in 匕 


Ed_set ^fdset, NULL ； NULL, NULL); 


n 


j 


返回已准备好的描述符的非零个數，若出错则为 -1 


FD_ZERO(fd_set *fdset); 

FD_CLF{ir.t fd_set *fdset )； 

KD_SET(int fd, fd_set *fdset); 

FD„ISSET(inL fd 』 [d_se: *fdset )； /* Is bit fd in fdset turned on? V 

处理描述符集合的宏, 


卜 Clear all bits In fdset * / 

/* Clear bit fd in fdset */ 

/ * Turn on bit fd in fdset */ 


select 函数处理类型为 fd_ se t 的集合，也叫做描述符集合。逻辑上 f 我们将描述符集合看成一个 
大小为的位掩码 r 


b 




■ ■ + 


n-1? 


每个位 h 对应于描述符 fc D 当且仅当有达=1,描述符 Jfc 才表明是描述符集合的外元素。只允 
许你对描述符集合做4件事：分配它们；将一个此种类型的变量陚值给另一个变量；用 FD„ZERO、 
FELSET、FD_CLR 和 FDJSSET 宏指令来修改和检查它们， 


针对我们的口的， select 函数有两个 输入： 一 个称为 读集合 的描述符集合 （fdset) 和该读集合的 
元素量 （ n ) D select 函数会一直阻塞，直到读集合中至少有一个描述符准备好可以读 & 当且仪当一 

个从该描述符读取一个字节的请求不会阻塞时，描述符 k 就表示准 备好可 以读了。作为一个副作用, 
select 修改 f 参数 fdset 指向的 fd_set， 指明读集合中…个称 为准备好集合 Cready set) 的了集，这个 

集合是由读集合中准备好蚵以读了的描述符组成的。函数返回的值指明/准备好集合的元素量。注 
意，由于这个副作用，我们必须在每次调用 select 时都更新读集合。 

理解 select 的最好办法是研究一个具体例子。图 i3_6 展示了我们可以如何利用 select 来实现一 
个迭代 echo 服务器，它也可以接受标准输入 h 的用户命令。 


cod^/conc/select. c 


ttinclude ir csapp.h M 
void echo (i!it conafd 
void command(voidl; 


4 


int main(ini argc, char + *argv) 


int liscenfd, connfd, port r clientlen 
struct sockaddr_in ciientaddr; 
fd_set read_set, ready_set ； 


sizeof(struct sockaddr_in )； 






10 


if fargc [= 2 ) { 

fprintfIstderr 

exit(0 )； 


11 


12 


usage: <port>\n M , argv[0]) 


13 


14 


_ 

丄〕 


port = atoi(argv[1 ])； 
listenfd = Open_listenfd(port]; 


16 


17 


IB 


FE_ZERO(^read_set )； 
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13 


19 


?D_SET(STDIN_FILEMO, &read_&et] ? 
7D_SET(li&tenfd, &read_set); 


20 


21 




while (1) { 

reddy_set 

Select {listenfd+l, &ready_set, NULL, NUTpL, NULL); 

FD_ISSET(STDIN_FILENO r &ready_set)) 
commarid {) ; /* read command line from stdin */ 
if !FD_ISS5T(listenfd, &ready_set)) { 

conrtfd = Accept tlistenfd, [SA *) &clientaddr, &^:lientlen) 

echo (connrd) ; / + echo client input until EOF */ 


23 


read set ； 




24 


25 


26 


27 


28 


29 


30 


31 


32 ) 


33 


34 void command (void) { 

char buffMAXLINE]; 
if (!Fgets(buf r MAXLINE, stdin)) 

exit (0 ); /* EOF 

print f ( 11 %s 1- r buf); /* Process the input command V 


35 


36 


37 


38 


39 } 


code/conc/select c 


13 /使用 j / O 多路复用的 echo 服务器 

服务器使用 select 等待监听描述符上的连接请求和标准输\上的命令， 


一 开始，我们用图117中的 open . listenfd 函数打开一个监听描述符（第16行），然后使用 
FELZERO 创建一个空的读集合 r 


li^Lenfd 


st,din 


read_&et ( <f >) : 


接 卜来， 在第 19 〜 20 行中 ， 我们定义由描述符 o (标准输入）和描述符3 (监听描述符）组成 


的读集合 


iistenfd 


scdin 


0 


read_seL[{G , 3 })： 


在 这电， 我们开始典型的服务器循坏。但是我们不调用 accept 承数来等待一个连接请求 ，而是 
调用 select 函数，这个凼数会一直阻寒，直到监听插述符或者标准输入准备好可以读（第24行乂 
例如， K 面是当用户敲市冋车键，因此使得标准输入描述符变为可读时， select 会返回的 ready _ s e i 


的值 
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listenfci 


stdin 


read„set C { 0}) : 


一旦 select 返 IhL 我们就用 FD_ISSET 宏指令来判断哪个描述符准备好可以读了。如果是标准 
输入准备好了（第25行)，我们就调用 command 函数，该函数在返回到主程序前，会读、解析和响 
应命令。如果是监听描述符准备好 f (第27行)，我们就调用 accept 来得到一个己连接描述符，然 
后调用图 12.21 中的 echo 函数，它会将来自客户端的每一行乂回送回去，良到客户端关闭它的连接。 

虽然这个程序是使用 select 的一个很好示例，但是它仍然留下了一些问题待解决。问题是一旦 
它连接到某个客户端，就会连续回送输入行，直到客户端关闭它的连接端。因此，如果你键入一个 
命令到标准输入，你将不会得到响应，直到服务器和客户端之间结束。 个更 好的方法是更细粒度 
的多路复用，服务器每次循环（至多）回送一个文本行（参见练习题13_3)。 

13.2.1 基于 I / O 多路复用的并发事件驱动服务器 

I/O 多路技术可以用做并发事件驱动 （event-driven) 稈序的基础，在事件驱动中，流是作为某 
种事件的结果前进的。一般概念是将逻辑流模型化为状态机□不严格地说，-个状态机 (state machine) 
就是一组状态 (state ) >输入事件 ( inputevent ) 和转移 ( transition). 其中转移就是将状态和输入事 

件映射到状态。每个转移都将一对（输入状态和输入事件）映射到一个输出状态。自循环 （sdf-loop) 
是同…输入和输出状态之间的转移。通常把状态机画成有向图，其屮节点表示状态，竹向弧表示转 
移，而弧上的标号表示输入事件。一个状态机从某种初始状态开始执行，每个输入事件都会引发一 
个从3前状态到卜一状态的 转移。 

对 f 每个新的客户端 i , 基于 I / O 多路复用的并发服务器会创建一个新的状态机 V 并将它和已 
连接描述符 A 联系起来。如图 13.7 所示,每个状态机&都有一个状态(“等待描述符&准备好可读”)、 
一个输入事件（“描述符呔准备好可以读了”）和 - 个转移 （“从捕述符4读一个文本行”)。 


输入事付：“描述符 
山准 备好叫 以读了 H 


转移 ； “从描述符 
A 渎一个文本仃 


状态： “等待描述符 
4准备好可读" 


图 13.7 并发亊件驱动 echo 服务器中逻辑流的状态机 

服务器使用 I/O 多路复用，借助 select 函数，检测输入事件的发生 4 当每个 C 连接描述符准备 
好口了读时，服务器就为相应的状态机执行转移，在这里就是从描述符读和写回一个文本行。 

图 13.S 展示 丫一 个基于 K) 多路复用的并发事件驱动服务器的完整小■例代码。活动客广端的集 
合维护在一个 pool (池）结构里（第3〜11行)。在通过调用 inilpool 初始化池（第28行）之后， 
服务器进入一 个无限 循环，在每次循环巾，眼务器调用 select 函数来检测两种不同类型的输入 事件: 
来 G —个新客户端的连接请求到达； 一 个己存在的客户端的己辻接描述符准备好 可以 读了。 当一个 
连接请求到达时（第35行)，服务器打幵连接（第36行) t 并调用 add_dient 函数，将该客户端添 
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加到池里（第37行）。 最;^ 服务器调甩 cheduJient 函数，把来自每个准备好的己连接描述符的 
一个文本行回送回去（第41行)。 


code/conc/e^hoservetSrC 


ftinclude n csapp,h 


/* represents a pool of connected descriptors V 

I’ largest descriptor in read_set 
f* set of all active descriptors */ 

/* subset or descriptors rCEidy for reading 
/ f number of ready descriptors from select */ 

I’ high water index into client array */ 

P set of active descriptors 

"set of active read buffers + / 


typedef struct { 

int maxid ; 
fd_set read set ? 
fd_yet ready_set 
int nready; 

int maxi; 

int cli^ntfd[FD_SETSIZE] : 
rio_z c]ientrio[FD 一 SETSIZE}; 


4 


6 


9 


10 


11 ) pool ； 


12 


13 int byte_cnt 二 0 ; f* counts total bytes received by server */ 


14 


15 .int main (ini arge, char **argv) 

16 l 


17 


inL listenfd f connfd, port, clientlen = sizeof(struct sockaddr_in); 

struct sockaddr_in clientaddr; 
static pool pool; 


18 


19 


20 


21 


if Urge 1=2} { 

fprint f(stderr 
exit(0); 


22 


usage: <port>\n 1 ', argv [0 ]); 


ip 


j 


23 


24 


25 


po^t = ^toi (argv j；l J ) 


26 


27 


Open_listenfd(port}; 

init_pool(listenfd^ Spool); 

while (1) { 

/* Wait for listening/connected descriptor's) to become ready */ 

pool.ready_sel = pool.read_set; 

pool.nready = Select (pool ,maxfd+l, &pool ,ready_set, NULL, NUU Jf NULL); 


listertfc 


2e 


29 


30 


31 


32 


33 


34 


/ + If listening descriptor ready, add new cUent to pool */ 

(FD_ISSETtlistenfd, &pool,ready_set)) { 

Accept (listenfd, (SA * ) &cli&ritaddr f &^lientlen) 
add_client(connfd f &pool) 


35 


36 


connfd 


37 


■ 

f 


38 


39 


40 


严 Echo a (ext line from each ready connected descriptor 

checkedi ent s (&pool )； 


41 
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code/conc/echose rvers^c 


13.8 基于1/0多路复用的并发 echo 服务器 


每次服劣 S 衝环都回送来 A 每个准 ft 好的描述符的文本行。 


inilpool 函数（图 13.9) 初始化客户端池。 diemfd 数组表示己连接描述符的集合，其屮 _1 表本 
一个吋用的檇位。初始时， Li 连接描述符集合是空的（第5〜7行)，而且监听描述符是 sekct 读集 
合中惟一的描述符（第]0〜12行)。 


codekonc/echos ervers. c 


void init_pool(int Listcnfd, pool *p) 


产 Initially, there are no connected descriptors */ 

int i ; 

p->maxi 二 -1; 

for [.1^0; i< FD_SETSIZE ； 1++) 

p->clientfd[i] - - 1; 


4 


8 


(* Initially, liMetrfd is only member of select read set *f 

p->maxid 

FD_ZER0(&p->read_^0t); 

FD_SET(li^Lenfd, &p->read_set) 


9 


10 


listenfd ； 


11 


15 


13 


code/conc/e cho&e rvers. c 


图 13.9 init __ pool : 初始化活动客户端池 

add_cliein (图 13.10) 函数添加-■个新的客户端到活动客户端池。在 clientfd 数组中找到一个空 
位后.服务器将这个己连接描述符添加到数组中，并初始化相应的 Rio 读缓冲冈，使得我们能够对 
这个描述符调用 dojeadlineb (第 8 〜 9 行)。然后 ， 我们将这个己连接描述符添加到 select 读集合(第 

12 tr)t 并更新该池的一些全局属性。 maxfd 变貴（第 15〜16 行）记录 f select 的最人文件描 述符。 
maxi 变量（第】 7〜18 行）记彔的是 cliemfd 数组的最大索引，这样 check_cliems 函数就无需搜索整 
个数组了。 


code/conc/echoservers. c 


voi d add_client (int cortnfd, pool *p) 


4 


p->ri:ea3y--; 
for {i - 0; 


FO^SETSIZE ； i + + ) ^ Find an available slot 

iI (p->clientfd[i] < 0) { 

Add connected descriptor to the pool + / 

p->clientfd [i] 

Rio_readinitb(£cp->clienrrio ( i 1, connfd )； 


7 


8 


connfd; 
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10 


Add che descriptor to descriptor set 

FD_SET(connfd, fcp->read_set); 


11 


12 


13 


/* Update max descriptor and pool highwater mark */ 

if (coniifd > p->maxfd> 

p->maxfd 

if {i > >maxi) 

- >maxi 


14 


15 


connfd; 


16 


17 


18 


P 


break ； 


19 


20 


if (i 二 = FD_SETSIZ3) /* Couldn't find an empty slot */ 

Tco many clients"); 


21 


app_error( M add_cl i ent 


22 


error : 


23 


code/conc/echoservers. c 


13,10 Qdd . client : 添加一个新的客户端连接到池中 

di e ck_cliems (图 13,11) 函数回送来自每个准备好的已迮接描述符的一个文本行。如果我们成 
功地从描述符读取了一个文本行，那么我们就将该文本行回送到客户端〔第15 〜 18行)。注意，在 
第15行我们维护着个从所有客户端接收到的全部字节的累计值。如杲因为客户端关闭它的连接 
端，我们检测到 EOF , 那么我们将关闭我们这边的连接端（第23行），并从池中清除掉这个描述符 
(第24〜25 lx ). 


a 


code/con c/echoserve rs, c 


void check_clients(pool *p) 


int i^ conn£d f n ； 
cnar buf [MAXLINE]; 
rio_t rio; 


4 


p->maxi) £c& (p ->nready > 0) : i++) { 


for :i = 0; (i 

connfd = p->clientfd[i ； 

p->clientrio[i]; 


<- 


8 


no 


10 


if the descriptor is ready, echo a text line from it */ 

if ( (connfd > 0) && (FD_ISSET (connEd, &p->ready_set) ) ) { 

p->riready--; 

if ((n = Rio_readlineb(trio, buf, MAXLINE)) !- 0) { 

b^ r te_cnt 

printf ( 11 Server received %d (%d tcLdl) byLes on td 辛 d\n 

n, byte_cnt f connfd); 

Rio_writ:en (connfd ； buf, n); 


M ■■ 


12 


13 


14 


lb 


n 


16 


17 


18 


19 


2C 
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21 


/* EOF detected，remove descriptor from pool */ 

else { 


22 


23 


Clo^G(ccnnfd); 

FD_CLK(conn£d, &p->read_seL); 

p->cli 台 ntfd[i] 


24 


25 


1 


26 


28 


29 } 


code/conc/echoservers. c 


13」 1 checLclients ： 为准备好的客户端连接服务 

根据图】3.7中的有限状态模型， sdect 函数检测到输入事件，而 add_diem 函数创建一个新的逻 
辑流（状态机)。 ched^diems 滅数通过回送输入行来执行状态转移，而且骂客户端完成文本行发送 
时，它还要删除这个状态机。 

13.2,2 I / O 多路复用技术的优劣 

图13,8中的服务器提供 r 一个很好的基于 I/O 多路复用的事件驱动编程的优缺点示例，事件驱 
动设计的一个优点是，它比基于进程的设计给了程序员更多的对程序行为的控制。例如，我们可以 
设想编写一个事件驱动的并发服务器.为某些客户端提供它们需要的服务，而这对于基子进程的井 
发服务器来说，是根困难的 

另一个优点是，…个基于1/0多路复用的事件驱动服务器是运行在单一进程上下文中的，因此 
每个逻辑流都能访问该进程的全部地址空间。这使得在流之间共享数据变得很容易，作为单 -- 进程 
运行的一个相关优点是，你可以利用熟悉的调 U1: 具（例如 GDB) 来调试你的并发服务器，就像对 

顺序枵序那样。最后，事件驱动设计常常比基于进枵的设计要明显地高效得多，因为它们不要求有 
进程上 F 文切换来调度新的流 。 

事件驱动设计一个明I的缺点就是编码复杂 D 例如，我们的事件驱动的并发 echo 服务器需要的 
代码比基于进程的服务器多三倍，并 E1. 很不幸，随着并发性粒度的减小，复杂性还会上升。这里的 
粒度是指每个逻辑流每次时间片执行的指令数 n。 例如，在我们的示例并发服务器中，并贫粒度就 
是读 一个完 整的文本行所1要的指令数只要某个逻辑流正忙子读一个文本行，其他逻辑流就不 
nj 能有进展。对我们的例 -JT 而言这就很好/， m 是它便得我们的事件驱动服务器在“故意只发送部 
分文本行然后就停止”的恶意客户端的攻击面前显得很脆弱。修改事件驱动服务器来处理部分文本 
行不是一个简单的任务，但是基于进程 的设讣 却能处理得很好，而且是自动处 理的。 

练习 S 13.3 

在大多数的 Unix 系统里，在标准输人上键入 ctr[d 表示 EOF, 如策你在图13,6中的程序阻塞 
在对 select 的调用上时，鍵入 ctrt-d 会发生什么？ 




练习羅 13.4 


13-8 所示的服务器中，我们在每次调用 select 之前都立即小心地重新初始化 pool.ready_set 


变量。 为什么? 
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13.3 基于线程的并发编程 


到 n 前为止，我扪己经看到了两种创珪#发逻辑流的方法.在第种方法中，我们为每个流免 

用广 单独的迸稈，内核会 h 动调度每个进程。每个进程冇它 fi 己的私有地址空间，这使得流共享数 

据很闲难< 在第一种方法中，我们创建 fid 的逻辑流，并利用 I/O 多路复用来显式地调度流 . 因为 

只有 个 进程，所有的流共享整个地址空间。这一节介绍第二种方法——基于线程——它是这两种 
方法的混合。 


个 线程 ( thread ) 就是运行在一个进程上下文中的个逻辑流。迄今迮本书甩，我们的程序 
都是由一个进稈屮一个线程组成的。但是现代系统也允许我们编写一个进稈里同时运行多个线程的 
程序，线稈由内核自动调度。每个线程都有它 h 己的线程上下文 （thread context ), 包括一个惟一的 
整数线程 ID (Thread ID , TID )、 栈、栈指针、程序计数器、通用 A 的寄存器和条件码。所有的运 
行在一个 进程电 的线程共享该进程的粮个虚拟地址空间， 

基于线程的逻辑流结合了基丁进程和基于 I / O 多路复用的流的特性。同进程一样，线程由内核 

自动调度， 并- ■! 内核通过 1 个整数 ID 来识别线程 D 同基于 I / O 多路复用的流一样，多个线程运行在 

单-进程的上下文中，闲此丼亨这个进程虚拟地址空间的整个内容，包括它的代码、数据、堆、共 
孕库和打丌的 文件。 


13-3.1 线程执行模型 

多个线程的执行模型存某些方面和多进稈的执行模型是很相似的。思考一卜图 13.12 中的^例, 
每个进程幵始生命周期时都是牟 ■一 线程，这个线程称为 主线程 （imin thread) 。在某一时刻，主线程 
创建-个对 等线程 （peerthread), 从这个时间点开始- 两 个线程就并发运行。最后，因为主线稈执 
行-个慢速系统调用，例机 read 或 t sleq>， 或者因为它被系统的间隔计时器中断，控制就会通过 
上下文切换传递到对等线程。厶控制传庫 M 主线程前，对等线程会执行一段时间，依次 类推。 


时 ft 


线程1 


线程2 


(主线裎） （对等 线程〉 


线程 f . 卜文切换 


}线程 I :卜文0換 


::: } 线程! ■ 卜文 W 换 


1 


图13.〗2并发线程的执行 

在■些重要的方向，线程执行是不同于进稈的因为一个线程的上卜文要比个进稈的上卜文 
小得多，线稈的 k 下文切换要比进程的上下文切换快得多。另一个不同就是线程，小像进程那样， 
不是按照严格的父+层次来组织的,和一个进程相关的线程组成一个对等 (线稈) 池 (apool ofpeefi)j 
















并发编程 


745 


独立于其他线程创建的线程。主线程和其他线程的区别仅在 f 它总是进程中第一个运行的线程。对 
等（线程）池概念的主要影响是，〜个线程可以杀死它的任何对等线程，或者等待它的任意对等线 
程终止。进一步来说，每个对等线裎都能读写相同的共享数据。 


13.3.2 Posix 线程 

Posk 线程 （Plhreads) 是在 C 程序中处理线程的-个标准接 U。 它 M 早出现在1995年，而辻 
在大多数 Unix 系统上都每用 。 Pthreads 定义了大约60个函数，允许程序创建，杀死和冋收线程， 

_对等线程安全地共享数据，还可以通知对等线程系统状态的变化。 

图 13.13 展示了一个简单的 Pthrcads 程序 6 : t 线程创建一个对等线程，然后等待它的终止。对 
等线程输出 “H e llo，worid!\ ^并 FI 终当主线程检测到对等线程终 ih 后，它就通过调用地终止 
该进程。 


codekonc/hellox 


井 include M csapp.hr 
void *thread(void *v^rgp) 


4 


int main{) 


pthread_t ti.d; 

Pthread^createNULL, thread f NULL) 
Pthread_ioin(tid, NULL )； 
exi 二 [G); 


9 


1C 


void *thre^d (void *vargp) thread routine */ 


13 


U 


print f i'Hello, world[ \n lp ); 

return NULL? 


15 


16 ) 


^~ codekom:/hetto.c 


图] 3」3 hello * c . Pthreads u Hello , world !" 程序 

这是我们看到的第-个线程化的程序，所以让我们仔细地解析它。线程的代码和本地数据被封 
装在一个线程例程 （thread Kmtine ) 中，正如第二什1的原型所示，每个线稈例程都以一个通用指 

针作为输入，并返回一个通用指针。如果你想传递多个参数给线程例程，那么你应该将参数放到一 
个结构中，井传速一个指向该结构的指针。相似地，如果你想要线程例程返回多个参数 t 你吋以返 
回一个指向-个结抅的指针， 

第4行标出广主线程代码的幵始，主线程声明了 -个本地变量 tid , 它可以用来#放对等浅程的 
线程 ID (第6行 h 主线程通过调用 pthread _ create 函数创建…个新的对等线程（第7行夂当对 
pthreacLcreate 的调用返回时，主线程和新创建的对等线程并发运行，井叵 lid 包含新线程的 ID 。 通 
过调用 pthreadjoh ， t 线程等待对等线 程终化 （第8行） . 最后，主线程调用 exit 〔第9行)，终止 
当时运行在这个进程中的所有线程（在这个示例中就只有主线程) 。 

第12〜16行定义了对等线程的线程例程。它只打印一个字符串，然后就通过在第15行执行 
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return 语句来终止对等线稃。 


13.3.3 创建线程 

线和通 过调用 pthread _ create 函数来创建其他线程。 


#include <pthread + h> 
typedeE void *(func)(void y ); 


int pthread_create(pthread_L *tid, pthread_attr_t *attr 

func f void ^arg )； 




若成功则返回 0 , 若出错 fli : 为非零。 , 

pthread . create 阑数创建一个新的线程，并带着一个输入变量盯 g , 在新线程的 h 卜文中 运行线 
释例程 f 。 能用 attr 参数来改变新创建线程的驮认属性。改变这些属件已超出我们学习的范围，并且 
在我们的示例中，我们总是用一个空的 attr 参数来调用 pthread _ create 函数 & 

3 pthread . create 返冋时，参数 tid 包含新创建线程的 ID 。 新线程可以通过调用 pthread _ self 函 
数来获得它自己的线程 nx 


ftinclude <pthread,h> 


ptV:read_t pthredd_self (void )； 


返回调用者的线程 ID 。 


13.3.4 终止线程 

一个线程是以卜列方式之一来终 止的： 

• 当顶层的线稈例程返回时，线枵会隐式地终止。 

• 通过调用 pthread . exit 函数，线程会显式地终 jh ， 该函数会返回一个指向返回值 thread.retum 

的指计。如果主线程调用 pthread _ exU , 它会等待所冇其他对等线程终止，然后冉终||.卞线 
程和粮个进程，返回值为 thread return □ 


# include cpthread,h> 


int pthread_exit{void *thread_return) 


___ 若成功则返回⑴若出错則为非 零, 

某个对等线程调用 Unix 的 exit 函数，该函数终止进稃以及所有与该进程相关的线稃> 
片-个对等线程通过带调用当前线程 ID 来的 pthiead.cancle 函数来终止当前线程 □ 


_ 


#include <pLhiead.h> 


int pthread_cancel(pthread_L tid); 


若成功返回 o , 若出错则为非零。 


13.3.5 回收已终止线程的资源 

线程通过调用 pthreadjoin 函数等待其他线程终止 
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^include <pthread.h> 


int pthread_join [pthread_z tid, void **threa.d_return); 


若成功則返码 o , 若出错則为非零, 


frthr^djoin 函数会阻塞，良到线程 tid 终止，将线程例程返回的 （voidM 指针陚值为 thrcad.retum 

指向的位置，然后回收己终止线程占用的所有存储器资源， 

注意，和 Unix 的 wait 函数不同的， pthreadjoin 函数只能等待一个指定的线程终止。没有办法 
让 pthrad^vait 等待任意-个线程终 iL。 这使得我们的代码更加复杂，因为它迫使我€去使用其他 
一些不那么直观的机制来检测进程的终止。实际上， Steens 在 [81] 中就很有说服力地论证了这是一 
个错误。 

13,3.6 分离线程 

在任何一个时 间点上 t 线程是可 结合的 ( joinabb ) 或者是 分离的 （detached)。 一 个可结合的线 

程能够被其他线程收回其资源和杀死 d 在被其他线程回收之前，它的存储器资源（例如栈）是不释 

放的. 相反， 一 个分离的线程是不能被其他线程回收或杀死的。它的存储器资源在它终 IL 时由系统 
自动释放6 

默认情况 F, 线程被创建成可结合的。为了避免存储器泄漏，每个可结合线程都应该要么被其 
他线程显式地收回，要么通过頃用 pihrcatdetach 函数被分离 t 


#include <pthread-h> 


int pthread_detach(pthread_t Lid); 


I 若成功则返 a 0,若出错則为非零 

pthread^detach 函数分离可结合线界 tid。 线程能够通过以 pthr£ad_jelf() 为参数的 pthread^detach 
调用来分离它们自己。 

尽管我们的一些 例了会 使用可结合线程，但是在现实程序中，有理由要使用分离的线程。例如， 
一个高性能 Web 服务器可能在每次收到 Web 浏览器的连接请求时都创建一个新的对等线程 6 因为 
每个连接都是由…个单独的线程独立处理的，所以对于服务器而言，就很没有必要——实际上也不 
愿意——显式地等待每个对等线程终 lh。 在这种情况 F, 每个对等线程都应该在它开始处理请求之 
前，分离它自身，这样就能在它终止后，回收它的存储器资源了。 


13.3.7 初始化线程 

pthread.once 函数允许你初始化与线程例程相关的状态 


ttirclude <pthr&ad,h> 


pthredd_once_t once—control 


PTHREAD QKCE IHV：; 


int pthread_once(pthread_once_t *once_control, 

vo:.d ( + irLit_routine) (void)); 


总是返珥 0 C 
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control 变暈是一个全局或者静态变景，总是被初始化为 PTHREAD_0NCEJN1T 。 当你第 


once 


一次用参数 

返回什么的 pfi 数。接下來的以 once.control 1 Al 参数的 pthread_ 
3 你需要动态初始化多个线程共享的伞局变量时， pthread. 
里看到一个小例。 


control 调用 pthreadLonce 时，它调用 init_routine, 这是一个没有输人参数，也不 

调用不做任何事情。无论何时， 
函数是很冇用的。我们将在 13.6 节 


once 


once 


once 


13,3.8 一个基于线程的并发服务器 

图 13.14 展小了基于线程的并发 echo 眼务器的代码 s 整体结构类似于基于进程的设主线程 

不断地等待连接请求，然后创建一个对等线程处理该请求 a 虽然代码眉似简申，但是有儿个宵遍而 
且冇些微妙的问题需要我们更仔细地看一看：第 一个闷 题是当我们调用 pthreadjreate 时，如何将 

选接描述符传递给对等线程 a 最明显的方法就是传递个指向这个描述符的指针， 就像下 面这样 


connfd = Accept(listenfd, (3A &clientaddr, ^client Len) 
Pthread^create (Sttid, NULL, thread, &connfd); 


然后，我们 il: 对等线程间接引用这个指针，并将它陚值给一个局部变量，如下所示 


'■/oidl * thread (void *vargp}( 

int connfd - 


((mt T ) vargp}; 


然而，这样可能会出错，因为它在讨等线程的賦值语句和主线秤的 accept ® 句间』 j ! 入了竞争 
(race) 。 如果陚值语句在下一个 accqn 之前完成，那么对等线程中的局部变暈 connfd 就得到 iH 确的 
描述符值。然时，如果陚值语句是在 acapt 之后才完成的，那么对等线程中的局部变童 connfd 就得 
到下 次 连接的掐述符值。那么不幸的结粜就是 f 现在两个线程在 同 - 个 描述符上执行输入和输出。 
为了避免这种潜在的致命竞争，我们必须将每个 accept 返 M 的已连接描述符分配到它 & d 的动态分 
配的 # 储器块，如第 20 〜 21 行所示 □ 我 1 门会在 13.7.4 订中回过朿讨论蔸争的问题。 


code/con c/echoservert.c 


#include 


Cfiapp, h 


PI 


2 


void echo(int canrfd )； 
void ^thread(void 


4 


vargp.-; 




int main(int argc, char * + argv) 


1 i ster.fd, + connfdp, port, clie*ntlen=sizeof (struct sockaddr_in) 
strict sockaddr_in clientaddr ； 
pthread_t tid? 


int 


10 


"i ■ 


12 


if Urge J - 2) i 

fprintf[stderr 


13 


n 


usage: is <port>\n\ argv[0]) 


■ 

f 


i 


1 原 it 为 pthread 


一- 译者 


once 。 
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：4 


exit(0 ) ； 


15 


16 


port = atoi (a.rgv[ 1 ])； 


17 


1istenEd ; Open_listenfd(port )； 

while (1) { 

connfdp = Malloc(sizeo£(int)); 

*conn£dp - Accept(listenfd ； (SA *) fitclientaddr, &^lientien); 
Pthread_create(&tid, NULL f thread, connfdp )； 


18 


19 


20 


21 


22 


23 


24 


25 


26 /* thread routine */ 

void ^thread(void *vargp) 


27 


2 B 


29 


inL connfd 


* ( (int *)vargp); 

Pthread^detach(pLhread_selfi)); 


33 


31 


Free (vargp )； 
echo(ccnnfd) : 
Close(connfd); 

return NULL; 


32 


33 


34 


35 } 


code/conc/e chose rveri. c 


13.14 基于线程的并发 echo 服务器 

另个 问题是在线枵例程中避免#储器泄漏。既然我们不显式地收回线程，我们就必须分离每 
个线程，使得它的存储器资源在它终士_时能够被收回（第 30 行)。更进一歩，我们必须小心释放主 
线稈分配的存储器块（第 31 行)。 

练习鼉13,5 

在图 13 J 中基于进程的服务器中，我们在两个位置小心坆关闭了已连接描 遣符： 父进程和子进 

程> 然而，在图 13.14 中基于线程的服务器中，我们只在一个位置关闭了已连接描 迷符； 对等线程。 
为什么？ 


13.4 多线程程序中的共享变量 

从一个程序员的角度来看，线程很有吸引力的一个方面就是多个线程很容易共享相同的稃序变 

鼋。然而，这种共享电是很棘手的。为了编写正确的多线程程序，我们必须对所谓的共享以及它是 
如何工作的有很清楚的了解 D 

为了理解 c 程序中的一个变量是否是共享的，有一些基本的问题要 解答： 线程的基础存锗器模 
型是什么？根据这个模型，变量实例是如何映射到存储器的？最后，有多少线程引用这些实 例？- 
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个变量是共享的，当 n _ 仅当多个线程引用这个变量的某个实例。 

为了让我们对共亨的讨论具体化，我们将使用图 13.15 中的程序作为一个运行小例，敁管有些 
人为的痕迹，但是它仍然值得研究，因为它说明了关于共享的许多细微之处。小例稈字由一个创建 
了两个对等线程的 卞_ 线程组成。主线程传递一个惟〜的 ID 给每个对等线程，每个对等线稈利用这 
个 ID 输出一条个性化的信息，以及调用该线程例程的全部次数的数值。 


code/con c/sha ring, c 


#include "csapp 上 n 

ttdefine N ? 

void *thread(void *vargp) 


4 


ptr ； /* global variable 


char 


+ * 


int main() 


pthread_L tid; 
char *msgs[W] = { 

Hello from foo n 
Hello from bar” 


10 


11 


12 




13 


14 


15 


16 


ptr = msgs; 

for (i = 0; i < N ； i++) 

Pthread_create(£ttid r NULL, thread, (void *)i) 
Pthread_exit(NULL ); 


17 


18 


19 


20 } 


21 


22 void ^thread(void *vargp) 


23 


24 


int myid 


i int)vargp ； 


25 


static int cnt 

printf ( ,p [%d] : %s (cnL=%d) \n' 1 f myid, ptr [myid], +tcnt); 


0 


26 


27 


code/con c/shari rtgx 


13.15 说明共车不同方面的示例程序 


13.4.1 线程存储器模型 

-组并发线程运打在个进程的上 _ 卜文 9 。每个线程都有它 Sd 独立的线程上下文，包括线程 
iix 栈、栈指针、程序计数器、条件代码和通用 g 的寄存器值。每个线程和其他线程 - 起共享进程 
上下文的剩余部分。这包括整个用户虚拟地址空间，它是由只读文本（代码)、读/写数据、堆以及 
所有的共享库代码和数据 K 域组成的。线稈也共享同样的打开文件的集合。 

从实际操作的角度来说，让一个线程去读或写另一个线程的寄存器值是不吋能的9另一方面， 
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任何线程都可以访问共享虚拟存储器的任意位置 。 如果某个线程修改了一个存储器位賈，那么其他 
每个线程最终都能在它读这个位置时发现这个变化。因此，寄存器是从不共享的，而虚拟存储器总 
是共享的。 


&自独立的线程栈的存储器模型不是那么整齐请楚的。这些栈被保存在虚拟地址空间的栈区域 
中，并且通常是被它们相应的线程独立地访问的。我们说通常而不是总是，是因为不同的线程栈是 
不对其他线程设防的。所以，如果一个线程不知何故得到一个指向其他线程栈的指针，那么它就4 
以读写这个栈的仟何部分。我们的示例程序在第26行展示了这一点，其中对等线程寅接通过全周变 
量 ptr 引用主线枵的栈的内容， 


13.4.2 将变量映射到存储器 

多线程的 C 程序中的变量根据它们的存储类型被映射到虚拟存储器。 

• 全局窆量。企局变量是定义在函数之外的变量。在运行时，虚拟存储器的读/写[X域只包含 

每个全局变量的一个实例。例如，第5行声明的全局变量 ptr 在虚拟存储器的读/写 [：< 域中 
有 - 个远行时实例。当一个变量只有一个实例时 t 我们只用变量名——在这电就是 pti — 
来表# 这个实例。 

• 本地&动变量。本地自动变量就是定义在函数内部但是没有 sutic 属性的变量 & 在运行时， 

每个线程的栈都包含它自 d 的所有木地6动变量的实例，即使多个线程执行同-个线枵例 
程时，也是如此。例如，有一个本地变量 tid 的实例，它保存在主线程的栈中。我们用 tid,m 
来表一这个实例。再来看一个例子，本地变童 myid 有两个实例，一个在对等线枵0的栈内， 
另-个在对等线程1的栈内 。 我们将这两个实例分别表示为 myid.pO 和 myid.pl。 

• 本地静态1量。本地静态变量是定义在函数内部异有 static 属性的变暈：和全局变童-■样， 
虚拟#储器的读/写区域只包含在程序中声明的每个本地餑态变量的一个实例 t 例如，即使 
我们示例程序中的每个对等线程都在第25行声明了 cut, 在运行时，虚拟存储器的读/写 K 
域中也只有一个 cnt 的实例 t 每个对等线程都读和写这个实例。 

13.4.3 共享变置 

我们说…个变暈 V 是共享的，当仅当它的-个实例被一个以1:的线枵引用。例如 t 我们示例 
程序 h 的变量 on 就是共享的，因为它只有一个运行时实例，并且这个实例被两个对等线程引用 D 
在另一方面， myid 不是共享的，因为它的两个实例中每一个都只被一个线枵引用 ， 然而 ，认识到像 
msgs 这样的本地自动变鼋也能被共享是很重要的。 

练习 SU6 

A ■利用 13 A 节中的分析，为图 13.15 中的示例程序在下表的每个条目中填写“是”或者“否' 

在第一列中，符号 v+t 表示变量 v 的一个实例，它驻留在线程 t 的本地栈中，其中 t 要么是 m (主线 
程八要么是 P 0 (对等线程 0) 或者 pi (对等线程 H 


变量实例 


主线程引用的？ 对等线程0引用的? 


对等线程1引用的? 


ptl 


cnt 
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(续表) 


变置实例 


对等线程1引用的? 


主线程引用的？ 对 等线程 0引用的? 


KiS^S.xTl 


myid-pO 

myid.pl 


B . 根据 A 部分的分析，变量 ptn cnt 、 i 、 msgs 和 myid 哪些是共 享的? 


13.5 用信号量同步线程 


共亨变景足 t - 分方便，但是它们也引入了同步错误 (synchronization error ) 的可能性。考虑 
13 J 6 中的秤庁 badcntx ， 它创建了两个线程，每个线埕都对共亨计数变景 cut 加1。 


code/conc/badcnL c 




S include 


csapp -h 


n 


define MITERS 100C00000 
void *count(void *arg); 


4 


6 /* shared counter variable + / 

unsigned int cnL 二 


0; 


i 1 

■ 


3 


inL main{} 


10 


"i ■ 


pLhread_t tidl, tid2 ； 


12 


13 


Pthread_create Utidl, NULL, count, NULL) 
Pthreac_crsate f^tid2 , 丽 LI 」， count f NULL); 
Pthreac_jain{tidl, NULL )； 

FLhread_j oin (t d 2 一 NULL )； 


■ 

r 


u 


lb 


16 


17 


8 


if (cnt ! - (unsigned)NITERS*2) 

pnnll ("BOOM! cnt=%a\n 11 P cnt ); 


I ^ 


20 


e 


21 


printf ( 11 OK cnt=%d\n 
exi~(0); 


cnt )； 


^2 


23 


7A 


2 5 /* thread routine 

^6 void + courjt (void *arc[ 




28 


int l - 

for (i 


C; i 


NITERS ； i+-) 


30 


cnt+ 十 ； 
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31 


return MULL 


32 


code/conc/hodcni. c 


13,16 badcnt.c: 一个不正确同步化的计数器程序 


因) J 每个线程都对计数器増加了 NITERS 次，我们町能会预计它的最终值是 2 * N 【 TERS 。 然而， 
当我们在我们的系统上运行 badcnu 时，我们不仅得到错误的答案，而且每次得到的答案都还不相 


同 ! 


, /jbadcnt 

BOOM! ctr=198B41183 

, /badcnt 
BOOM! cLr:19e261S01 

. /b^dcnt 
BOOM! ctr^!98269672 


umx > 


unix> 


unix> 


那么哪里出错丫呢？为了清晰地理解这个问题，我们需要研究计数值循环的汇编代码，如图 
J 3. I 7 所示。我们发现，将线枵丨的循环代码分解成五个部分是很冇帮助的： 

• H r . 在循环头部的指令块。 

* L t ： 加载共赛变鼋 cm 到寄存器細31的指令，这1如叫表不线程/中的寄存器％側的值。 

* 史新（增加）％ 6 狀_的指令。 

•心将^^狀,的更新值存回到共卓变景 cnt 的 指令. 

• T , 循环尾部的指令块， 


线荇丨的 JUS C 代码 


, L 9： 


movl -4(%ebp] , %eax 

cmpl 

jle .L12 
jmp ,L10 

b __ ■■■■ j I ■■ j r ■■圓 __j ■ - ii I _ p ___ J 

■ L12: 


H f: 头 


线 ? f j 的 C 代码 


L t : Load ctr 
Ut\ UpdBte ctr 
5 ) : Store ctr 


for i<NlTERS ； i 十十 ) 

ctr + 一 j 


movl ctr^ %eax 

leal 1fVeax),%ecx 

movl ctr 


.L9 ： 


movl -4(tebp),%eax 
leal 1(%eax),%edx 
movl %edx, -4 (%ebp) 

jmp .L9 




,L10: 


13」7 badcntx 中计数器徧环的 !A32 汇编代码 

注 t 头和尾只操作本地栈变量，而 L t 、 仏 和乂操 作共卓计数器变量的内容。 

当 badcntx 中的两个对等线程在-个单处理器上并发运行时，机器指令以某种顺序-个接一个 
地完成 a 因此，每个并发执行定义了两个线程中的指令的某种全序（或者交互)。不莘地是，这些顺 
序中的一些将会产生正确结果，佝是其他的则不会. 

这里有个关 键点： 一般而言，你没有办法预测操作系统是否将为你的线程选择一个正确的顺 



冬 - Bmauj ft 峒了一个正_的衔令》序的分步操作 * &每个 sis 吏矚 T 共享突量 
ZfS . 您在存 慵櫞中 SMI 2 , 这正是 期琪的 ffi , 方面> 田 ms < b > 的_序产 t «个不 

in «^ t «会 t 生这拃的问 sas )^ 钱耗 2 ms ^ m ^ 足生笛 2 1 加 

tfn ^ 时仵， * 步线 « n 存储 它的赵 新值之 w , eA , wi pijjMii jj ■■ ipifMF 

新后的讣取 埋故 4 


LIll 


—— m ——mm 


mmmmmm 

SSB 




(il 正的 K_Jf 


n — ^ 3^3 ^ B^S 

— — W ^ M — 

HHKH HH 


1>] 不 i ■.磽 的灞亇 

®33 .ie tflOcnhC 中軍一次棚 EP £ t 申齡抱令腦序 
借助 P —种 叫镟进 tffl CpreerfM 6 ^) 的设备来阒明这盼和不 iJ ■:确的 痄令味 

的槪 金, 6个 BIMTJ 将在 T •节介》， 

S 习醞 13.? 

5C 我 -F 表中 Niflcrt-? tl +t 令楨序 : 
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线程 


报令 




cnt 


™^B—— 

— —mBB—^B 

^B— ^Ml —■— 

I 


10 


这种顺序会产生一个正确的 cm 值吗？ 

135,1进度图 

一个进度图 (progress graph) 将 fl 个并发线程的执行模型化为一条 n 维笛卡儿空间中的轨线 
每条轴 it 对应于线程 fc 的进度，每个点 （/ h W n ) 代表线程 Jfc (fcV-vO 已经完成了指令厶这一 
状态。图的原点对应于没有任何线程完成一条指令的初始状态 

图1119展示了 badcnk 程序第一次循环迭代的二维进度图 s 水平轴对应于线程1，垂直轴对应 
于线程2。点 （L,，&) 对应于线程1完成了 h 而线程2完成 了&的 状态。 
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图 13.19 bocfcnfx 第一次 循环迭代的进度图 

-个进度图将指令执行模型化为一个从一种状态到另一种状态的转换 （tramiilion) 。 -个 转换被 
表乐为一条从一点到相邻点的有向边，合法的转换是向右（线程1中的一条指令完成）或者向上（线 
程2中的一条指令完成）的。两个指令不能在同一时刻完成^^^角线转换是不允许的。程序决不 
会反向运行，所以向 F 或者向左移动的转换也是不合法的 

一个程序的执行历史被模型化为状态空间中的一条轨线 fl 图 13+20 展示了下面指令顺序对应的 
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线程2 


t 2 安全轨线 


r 




不安全轨线 


梅 


s 2 


写 cnt 的临 


U 2 


m 


L 2 


h 2 


g 程 1 


Hi 


Li 


Ui Si T, 


勾 cnt 的临 羿区 


13.22 安全和不安全轨线 


13.5,2 利用信号量访问共享变量 

EdsgerDijkstra , 理解和阐明并发编程领域的先锋人物，提出了一种经典的解决冋步不同执行线 
程问题的方法，这种方法是基于一种叫做信号量 （ semaphore ) 的特殊类型变量的。信号童^是具有 
非负整数值的全局变量，只能由两种特殊的操作来处理，这两种操作称为 P 和 K 

• P ( sh 如果^是非零的，那么 P 将 J 减 h 并且立即返回。如果 f 为零，那么就挂起进程， 
直到 a 变为非零，并且该进程被-个^操作重启。在重启之后， f 操作将 s 减1,并将控制 
返回给调用者。 

• V(sh V 操作将^加1。如果有任何进程阻塞在 f 操怍等待5变成非零，那么 V 操怍会重启 
这些进程中的一个，然后该进程将 r 减1，完成它的/>操作， 

尸中的测试和减1操作是不 pJ 分割的，也就是说， 一 旦预测 s 变为非零，就会将 f 减1，不能有 
中断。 V 中的加1操作也是不 Pj 分割的 t 也就是加载、加1和存储信号量的过程中没有屮断。 

旁注 f 名字 P 和 V 的起濂 

sget Dijkstea d ； 支于荷兰 * 名字 P 和 V 来譟于荷兰语单词 Pnd>em { 测试）和 \kfhogen ( 增 


加> 


P 和 V 的定义确保了一个运行程序绝不可能进入这样一种状态 T 也就是一个正确初始化了的信 
号量有一个负值。这个属性称为信号量不变性 (semaphore invariant ), 为控制并发程序的轨线而避 
免不安全 K 提供了强有力的工具 y 

基本的思想是将每个共享变量（或者相关共享变量集合）与--个信号董 j (初始为〗）联系起来， 
然后用和1/⑻操作将相应的临界 M 包围起来。以这种方式来保护共享变暈的信号暈叫做二进制 

信号量 （ binary semaphore ) ， 因为它的值总是0或者1。 

13.23 中的进度图展示了我们如何利用信号景来£确地同步我们的计数器程序不例。每个状 
态都标出了该状态中信号量 s 的值。关键概念是这神 P 和 V 操作的结合创建了一组状态 t 叫做禁止 
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# include <semaphore,h> 


int sem_init (aeir^_t 
int sem_wait(sem_t ); /* P(s 1 */ 
int sem_post(sem_t *s )； /* V(s) */ 


0, unsigned int value) 


sem 


I 返闵：若成功则为0,若出错则为 -u 

一个程序通过调用 semjnit 函数来初始化一个信号量。 semjnir 阐数将信号量 
value ,每个信号量在使用前必须初始化。针对我们的0的，中间的参数总是零。程序分别通过调用 
semjvait 和 sem^post ^数来执行 P 和V操作。为了简明，我们更喜欢使用下面的 P 和V包装 (wrapper) 


初始化为 


sem 


函数 


沣 inc 1 ude n csapp.h 


vcid P(sem_t *s )； /* Wrapper function for sem_wait */ 

void V(sem_t *s) ； /* Wrapper function for sen\_po<5t * / 


遂 0: 无 & 


例如，为 HE 确冋步我们的计数器 ㈤例， 我们可以声明一个叫做 nmtex 的信号 t: 


sem_L mutex; 


接下来 T 在主例程中，我们将它初始化 为一: 


sem init (Sjrmtex ， 0,1); 


最后，我们利用对 mutex 的 P 和 V 操作包围 cm 变量 * 从而保护它 


P (& mutex ) ; 

Cnt++; 

V (Scmutex ) ； 


13.5.4 利用信号量来调度共享资源 

我们在前一小节电看到了如何用信号量来提供对共享变量的互斥访问。信号量的另-■个重要作 
用是调度对共享资源的访问在这种情况中，一个线程用信号量来通知另一个线程，程序状态中的 
某个条件已经为真了。图 13.24 所承的生产者和消费者模型是一个经典的示例 g 生产者和消费者线 
稈共享一个有„个槽的有界缓冲区。 


生产者线裎 


共车缓冲区 


消费者线程 


13.24 生产者 - 消费者模型 

牛产者产牛项 H f item) 并把它们揷入到缓冲^中，消费者从缓冲区中取出这些项 H 并以某种方式使闲它们。 


!：1 


生产者线程反复地生成新的项目 （itein), 并把它们插入到 缓祌区 中。消费者线程不断地从缓冲 
区中取出这些项然后消费它们模型中也可能有不同的生产者和消费者数童6 
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因为插入和取出项 R 都包括更新穴享变量，所以我们必须保证对缓冲区的访问是互斥的。但是 
只保证互斥访问是小够的，我们还需要调度对缓冲区的访问。如果缓冲 K 是满的（没冇苧的梢位), 
那么生产#必须等 待肓到 有一个槽位变为可用^弓之相似，如果缓冲区是空的（没有 nf 取用的项曰）， 
那么消费者必须等待貞到有一个可 ffl 的项 R 。 

生产者-消费者的 相瓦作 用在现实系统中是很普遍的 D 例如，在一个多媒体系统屮，卞.产者编 
码视频帧.而消费者解码并在屏幕 h 呈现出来。缓冲区的3的是为了减少视频流的抖动 （jitter), 而 
这种抖动是由各个帧的编码和解码时与数据相关的差异引起的 。缓 冲区为生产者提供了个槽位池， 
而为消费者提供-个己编码的帧池。兒一个常见的示例是圉形用户接口的设计。生产者检测到鼠标 
和键盘事件，并将它们插入到缓冲 E 中。消费者以某种基 T 优先级的方式从缓冲区取出这些事件， 
并 m 在屏幕上。 

在木节中，我们将开发一个简单的包，叫做 sbvf 用来构造生产者-消费者程序。在 T 一节毕 
我们会看到如何用它来构造基于预线程化 (prethreading) 的一个有趣的并发服务器。 Sbvf 操作类型 
为 sbufj 的缓冲冈（图13.25)。项 S# 放在一个动态分配的 n 项整数数组中 D front 和 rear 索引值 

录该数组中的第项和最后一项， 二个 信号量控制对缓冲区的同步访问， inutex 信号量提供互斥的 
缓冲区访问。 slots 和 items 信号量分别 IE 录空槽位和可用项 fl 的数量。 


code/conc/sbuf.h 


typedef strjct { 

i rit + bnf ； 


I* Buffer array 

l* Maximum number of slots V 
/* bufl(from+l)%nl is first item + / 
/* buflrear%n] is last item */ 

1* Protects 

/* Counts available slots */ 

/* Counts available items *f 


int 


int front; 
inL rear ； 
sem_t muLex; 

slots ； 

sem L items : 


to buf 


accesses 


sem 


8 


9 


)sbuf 


code/conc/sbuf.h 


13.25 sbuf _ t :生产者-消费者程序的一个共享缓冲区 


sbufjnit 函数 13.26) 为缓冲区分配堆存储器，设置 from 和 rear 表示一个空的缓冲民，并 
为 i 个信号量陚初始值 D 这个函数在调用其他二个函数中的任何一个之前调用-次。 


code/conc/sbufx 


void ybuf_init(sbuf_t inL n) 


sp->buf = 
sp->n = n 
sp->frent 

(S ： sp->mutex, 0 ； 1) 
Sem_init(&sp->slots, 0, n) 
Sem_init(&sp->items, 0, 0) 


Calloc (n, sizeof(int ))； 


4 


Buffer holds max of n items V 

/* Empty buffer iff front == rear */ 

/* Binary semaphore for locking */ 

/* Initially, buf has n empty slots */ 
产 Initially, buf has zero data items + / 


yp->rear 




code/conc/shuf, c 


13*26 sbuLinit :初始化一个共享缓冲区 
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sbuf_deinit 的数（没有显示出来）是当应用程序使用完缓冲区时，释放缓冲区#储的。 sbufjnsert 
函数（图 13.27) 等待-个可用的槽位、对互斥锁加锁、添加项目、对互斥锁解锁 T 然后宣布有一 
个新项3可用. 


code / conc/sbufc 


void sbuf_insert(sbuf_t + sp ； int item) 


/* Wait for available slot */ 
f* Lock the buffer */ 

f* Insert the item 
/* Unlock the buffer ^ / 

/* AmKHince available item */ 


Pi&s]p->slots); 

P i,&3p->mutex}; 

sp->buf[(+4sp->rear) % (sp — >n)] = item ； 

V (isp->mutex); 

V (&sp->itsms); 


4 


8 


cod^/conc/sbuf c 


13.27 sbufjnser : 在一个共享缓冲区的后部插入一个项目 


这个函数- K 芎待到有-个槽位可用。 


sb U f_remove 函数（图 13.28) 是与 sbufjnsert 函数对称的。在等待一个可用的缓冲IX项口之 
后、对互斥锁加锁、从缓冲区的前面取出该项 H、 对互斥锁解锁，然后发信号通知-个新的榷位 
可供使用。 


code/conc/sbuf. c 


int sbu£_remove(sbuf_t *sp) 


1 


int item; 

? (&sp->iterns )； 

P(&sp->mutex )； 

iteifl = sp->buf [ (++sp- ： >front) % / ^ Remove the item */ 

V(^sp->mutex); 

V(&sp->slots) ； 
return itew 


/* Wait for available iEem 
/* Lock the buffer */ 


5 


/* Unlock the buffer */ 

/ + Announce available slot 


10 


code/conc/sbuf.c 


13+28 sbuLremove ： 从一个共享缓冲区的前部取出一个项目 




这个函数-直等待到 fl -- 个项 g 可用 


旁注：其他网步机制 

我已经向你展示了如何利用信号量来同步线程，主要是因为它们简单，经典，并且有一个清 
晰的谱义樸里 • 忸是你应该知道也是存在着其他同步技术 w 倒如， Jm 线租是用一种叫做 Java 监控 
器 （Java Monitor >[34】的机制来同步的，它技供了对信号量亙斥和调度能力的更高级別的 抽象； 实 
际上，监控器可以用信号量来实现.再来看一个例子， Pthrcads 接口定义了一组对互斥销和条件变 
董的同##作. Pthn ? ads 互斥鏔被用来实现 互斥. 条件变量用来调度对共享资源的访问，例如在一 
个生产者- 消贤者 程序中的有界缓冲区 




Pineludc ■ csspp . h n 
Pinclude，shuU 

^trne HTE[REfcDS 4 

deiific shufbize it 


vdid m ^ ho_Qnt ( iM . mrmfdJ ； 

vQtd * threadvoi-d 1 i / arop ) 




abuf』ebuf ; f * 5 h tuiFIerq | r e ( MinttlCd 4 tatiipi | wi »+/ 


ID 


5 - int ： tn<int gin ehar 


也务沐址桕一个 ±i 线杓和组 Mrkpr 线押杓成 fli 主线 ft 不 Kf 地 ts 受柬 SS 户埃的述接 Lff 求. 

井将得!^ iiS 接拙 氹 符 ttVH —个 J 4 令级冲 ■中 • 每 wwfcfir 线程 M 试地从儿 争 蠼冲卜中取 EH 擔述 
符. 为宪卢阁咀势，坊疠等持下一个錨述符 * 

ilffl f 我们怎阼用 Sfcvf 包 电本现 ■个预线 ft 化的坪发 《ho 1悔务 Kk 在初 始化: T 级冲 
区咖 if t ..21ff) 后，主找 WI 1 让了一组 { 23〜 2fi 行X : Jfi 它进入了无限时祖备 
D( ■衔坏， ft 戈迮庞清求，丼将衍利 K 连枝描述符挤 i 入 Hi ! 冲悔个 wwkfr 戌 ft 1 的行 为佈 

它 tf#ft 到它砣从暖沖祆中暾由一个己连抟描述符(荦邡行 h 玲用碘数 



is ■ 於 a 线裎 ft 的幷 ** 务器的■识法沟 


相 mmb! m 




: W«t 托,/ I 


mtpm 


響 w 


1#* 户如 


茸户 in 


! wcH t 胡 \ 

L i 


s ■入 a 納 


s * : . 


I •筠辫 Hft 


_3. i 4 中的对 t 眼务器中_我们为龟，个新客户 iam # 了一个新殘 im _ 这押 方法的珙以域 

我们; uw —个尹兵户崧创过-•个新线 泞败不 小的代价_个 ® 于 fa 钱稈化的 is ： 务》通 过使川 w 
_ v 所孕的生产者-消费#掩咁來 aiti 降 e 这种开 


13 ，.综合：基子顸线程化的并发服务器 


找们6经知通了妞柯使用侪弓_来达飼共笋耷_和_度对共享蝥深的访网，为了 ffl 讪你史清 M 

让夜钔把它们应 甲到 …个萋亍被捽为 ftiinic s 


iJm _•_】技农的并 Sllftltt 


±- 








702 




1 z 3 d 5 6 7 









并发编程 


763 


12 


13 


int i, listenfd, connfd, port, clientlen-sizeofistnact sockaddr_in }； 

struct sockaddr_in clientaddr ； 

pthread_t tid; 


14 


15 


16 


if (argc != 2)( 

fprintf(stderr 

exit(0); 


17 


usage: %s <port>\n K x argv[0]); 


18 


19 


20 


port = atoi(argv[l ])； 
sbuf_init(&sbuf f SBUFSIZE); 
li£=tenfd - Open_listenfd(port )； 


2： 


22 


23 


24 


25 


for (i 


NTHFEADS; 1 + + 1 }* Create worker threads + / 
Pthread_create [£ctid, NULL, thread P NULL); 


C; i 


< 




26 


27 


2 B 


while t 

connfd ^ Accept(listenEd, [Sh *) iclientaddr, &clientlen); 
sbu£_insert (&sbuf, connf d); Insert connfd in buffer */ 


25 


3 C 


31 


32 


33 


34 void *thread(void *vargp) 

35 { 


36 


Pthread_detach(pthread_se1 i 0 )； 
while ⑴ { 

int connzd = sbuf_remcve (t^bu£) ； Remove connfd from buffer V 
echo_cnt [cormfd); 

Close[connfd) : 


37 


38 


39 


/* Service clie^i */ 


40 


41 


42 } 


code/conc/echo se rve rtj)re + c 


图 13.30 — 个预线程化的并发 echo 服务器 

这个服务器使用的是有一个生产者和多个消费者的生产者-消费者模型^ 


函数 echo_cm ( 图 13J1) 是图 12.21 中的 echo 阐数的一个版本，它在全局变量 byte^cnt 中记隶 
了从所有客户端接收到的累计字节数。 


code/couc/echo cm.c 


# include ^ csapp.h 


static int byte_cn:; /* byte counter 

static sem_t mutex ； /* and the mutex that protects it */ 


4 


static void init_echo_cnt(void) 



n i t (Etmut 

Taytt.cnt = Oi 


a . JJr 


void 


ba^cnt (5nt CDrmfdJ 


int n ； 

thhi buf StAILUfE] j 

viQ^t rip ? 

static pthif € id _ oi ^ e_t once = PTITRIAD — OJJCE — IHIT ; 


?threH4_pncc (&diicri j inj r 
RiQ_riflri i nitb I trio, conr Mu 

while [(ti - Ria_refldUn&t^irio J oaf r 1= 0][ 

tyte_cnt — = n ? 

prifitf ( F thatead ft! r^cfiiv&d %d [Sd ) byt*a s. n fd ^d\n p ? 

f irtL 1 pthread_sel t < J 


byt _tnt ^ CDncI f fi I 


■n 


Rio_wrlten IccxnPifd , buf , nig 
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113.31 etho . cnl : echo « 一个拔本.它对 M 套户《榇收的 IS 有宇节 if 敷 

这足段饥«砑究的有趣代码 . 因为它_你喊亲丁一个被线的扣括 化相序 ■包的一: 
技术 * £我扪的惝况屮 I 我们露要初始化 byte mui ^ 估 &! “ ■个方法 f 决们为 SUjf 

和二]相序包使闬的 r 它 It 求主 _ SM 式地調用一个初鐘化1 数. 另外一个方珐_在■的，； . 

1 次 frit 线釉调吋. t 9疔）£«州利始化晚 数. 

这个方法的优点是它啤程甲饱的悚用更加存势*这神吖怯的峡 Aft 甩 ^ m^hosM 

闲数， 而 ■在抿多 时悴它绽有做 a ■么 有甩的 职* 

一且 Pt -包 被对始 tt « lKLM [ rt « 会初始 ItRtefa 冲 Wife (第20什)『 ：后例 送从客 J ' 消 
楮收到的悔一个文革行，注1.对 S &23-24 盱屮 扎宇 f # b > l £_ cm 的访 ㈣ ft 椎 f HS & 作保沪的， 

旁注 F 基于钱程的攀輯 9 E 动琢序 

m I 路复 用不是螓馮寧 # i &看耀牟的，一方法. 钶如， 诈巧炫注秦到我们啭才设计的舟 
虻的 悚味桠此的戴夺 典磷* 是一十亭件》功!1务|^带省 x 贼* 和 w ^ k « 战 a 的啤单：主战 

铒有》种徙态 r 等持速接请求 H 和“等# t 弗的缓冲 antt - h 焉个 mftt 接请求軔达- 

和•瑗冷盂續俅祀为可用1和畤个转挟厂接受漣搞请求_和*^ 入霞冲 #4 w 0 r t £« 

蟪往有^个状态 （ 11 華 t 可用的 壤冲蓽 一十 亭 #(* 職冷日氣为—个转 
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10 r srand ■ 

11 void f 


12 


13 


next 




14 



13.32 —个线程不安全的伪随机数生成器 [40] 

rand 函数是线程不安全的，因为当前调用的结果依赖于前次调用的中间结果^当我们调用 srand 
为 d 设置了一个种孓后，我们反复地从一个单线程中调用 rand , 我们能够预期得到一个可重复的 




d - return pseudo-random integer on 0,.32767 */ 

int rand(void) 


4 


5 


next = next + U03515245 

return (unsigned int)(next/65536) % 32768 ； 


12345 


十 


13 . 7 其他并发性问题 

你可能己经注意到了，一旦我们要求同步访问共享数据，那么事情就变得更加复杂了 * 迄今为 
止，我们已经看到了关于互斥和生产者-消费者的同步化技术，但这仅仅是冰山一角 & 同步化是非 
常困难的，引出了在普通的顺序程序中不会出现的问题。这一小节是关于你在写并发程序时需要注 
意的一呰问题的概括（决不是全面的概括)。为了更加具体化，我们将以线程的形式描述我们的讨论。 
不过要 记住， 这些典型问题是任何类型的并发流操作共享资源时都会出现的。 


13.7.1 线程安全 

当我们用线程编写程序时 f 我们必须小心地编写那些具有称 为线程安全性 (thread safety ) 属性 
的函数 D —个函数被称 为线程安全的 （ thi ^ d-safe ) ， 当且仅当被多个并发线程反复地调用时，它会 
- 直产生正确的结果.如果一个函数不是线程安全的，我们就说它是 线程不安全的 （ thread - unsafe )。 
我们能够定义出四类（有相交的）线稈不安全 函数： 

1 : 不保护共享变量的*数 

我们在图 13.16 的 count 函数中就已经遇到了这样的问题，该函数对一个未受保护的全局计数器 
变量加〗。将这类线程不安全函数变成线程安全的，相对而言比较容易：利用像 f 和 V 操作这样的 
同步操作来保护共享的变量。这个方法的优点是在调用枵序中不需要做任何修改，缺点是同步操作 
将减慢程序的执行时间。 


第2 :保待跨越多个调用的状态的《数 

-个伪贿机数生成器是这类线程不安全函数的简单例子，请参考图 13.32 中的伪随机数生成器 


程序包。 


code/amc/rand-c 


unsigned int next 


I siii 
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随机数？序列。然而，如果多线程调用 rand 函数，这种假设就不再成立厂。 

使得 rand 函数为线程安全的惟一方式是重写它，使得它不再使用任何静态数据，取而代之地依 
靠调用者在参数中传递状态信息.这样做的缺点是，程序员现在还要被迫修改调用程序中的代码。 
在一个太的程序中，可能有成百卜，千个不同的调用位置，做这样的修改将是非常麻烦的，而 . fl . 还容 

易出错。 


第3类： 退冋 指向静态变量的指针 的函数 

某些蚋数（例如 gethostbyname) 将计算结果放在静态结构中 f 并返回一个指向这个结构的指针 
如果我们从并发线程中调用这些函数，那么将可能发生灾难，因为正在被一个线程使用的结果会被 
另一个线程悄悄地覆盖了。 

冇两种方法宋处珉这类线稃不安全凼数 t 种 选择是重写函数，使得调甲者传递存放结果的结 
构的地址。这就消除了所有共享数据， m 是它要求程序员还要改写调用者屮的代码。 

如果线程 +安全 函数是难以修改或不却能修改的（例如，它是从一个库中链接过来的)，那么另 
外-种选抒就是使用我们称为 lock-and-copy (加锁-拷贝）的 技术。 这个概念将线程不安全闲数与迂 
斥锁联系了起来 a 在每一个调用位置，对互斥锁加锬，调用线程不安全函数，动态地为结果分配存 
储器，拷贝函数返回的结果到这个存储器位置 f 然 P 对 a 斥锁解锁。 一 个吸引人的变化是定义了一 
个线程安全的包装 （wrapper) 函数，它执行 lock-and-copy， 然后通过调币这个包装函数来取代所有 
对线枵不安全函数的调用。例如，图 13 , 33 给出『一个 gethostbyname 的线程安全的版本，利用的就 

是 lock-and-copy 技术。 

4类：调用线程不 安全凼 数的蛾数 

如果0数 f 调用线程不安全®数 g ， 那么 f 就是线程不安全的吗？不 定 ，如果 g 是第2类函数， 
即依赖于跨越多次调用的状态，那么 f 也是线稈不安全的，而且除 f 重写 g 以外，没有户么办法。 
然而，如果 g 是第1类或者第3类函数，那么只要你用•个互斥锁保护调用位置和仟何得到的共亨 
数据， 能仍然是线稃安全的 。在图 I 3 J 3 中我们看到了一个这种情况很好的示例，其中我们使用 
lock ^ d - copy 编写了个线程安全函数，它调用了一个线程不安全的函数 D 


□ 




code/conc/getho sibynam ejx. c 


struct hostent *gethostbyname_ts[char *hostname) 


struct hostent *sharedp, ^unsharedp; 


4 


unsharedp = Malloc(sizeof(struct hostent)) ? 

P(tmutex); 

bharedp = gethostbyname(nostname}; 

^unsharedp = ^sharedp : /* copy shared struct to private struct */ 

V (Scmutex) - 

return unsharedp ； 


10 


11 


- - -- - ■■■ ■ ■ ■■ ■■- - ■■■■■■■■■■■ -- code/cor\c/gethostbyname_ts.c 

图 13.33 gethostbynamejs : gethostb/name 的一个线程安全的包装函数 

使用 lock - and-copy 技术调用_个第 2 类线程不安全®数。 
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137.2 可重入性 

有一类電要的线程安全函数，叫做可重入函软 (reentrant function ) ,其特点在于它们具有这样 
一种1性： 3它们被多个线程调用时，不会引用任何共享数据。 

尽管线程安全和可重入有时会（不正确地）被用做冋义词，但是它们之间还是有清晰的技术差 
别，值得留意 

有函数的集合被划分成不相交的线程安全和线程不安全凼数集合。可重入函數集合是线程安全函数 
的。 - 个真子集。 


13.34 展示 T 可重入函数、线程安全函数和线程不安全函数之间的集合关系。所 


所有的函 K 






可*入函数 


图13+34可重入函数、线程安全函数和线程不安全函数之间的集合关系 

可重入函数通常要比不可重入的线程安全的函数高效一些，因为它们不需要同步操作。更进一 
步來说，将第2类线程不安全函数转化为线程安全函数的惟一方法就是重写它，使之变为可重入的。 
例如，图 13*35 展示了图 13.32 中 Tatid 函数的■-个可重入的版本。关键思路是我们用一个调用者传 
递进来的指针取代了静态的 nat 变量， 


code/conc/rand re 




d_r-a reentrant pseudo-random integer on 0.32767 */ 

int: rand_r (unsigned int *nextp) 


兩 Tl 


4 


*nextp ; *nextp + 1103515245 + 12345; 
return [unsigned Int) t *nextp / 65536) % 32768 ; 


6 


code/conc/rand nc 


图 13.35 rancU : 图 13.32 中的 rand 函数的可重入版本 

检査某个函数的代码井 先聆地 断定它是可重入的，这可能吗？不幸地是，不一定能这样。如果 
所有的函数参数都是传值传递的（也就是，没有指针) t 并且所有的数据引用都是本地的自动栈变貴 
(也就是，没有 引用静 态或全局变量 X 那么函数就是 显式可重入的 (explicitly reentrant ), 也就是 
说，无沦它是被如何调用的，我们都可以断言它是可重入的 4 

然而，如果把我们的假设放宽松一点，允许显式可重入函数中一些参数是引用传递的（也就是 
说，我们允许它们传递指针)，那么我们就得到了一个 隐式可重入的 ( implicitlyreentrant ) 函数 t 也 

就是说， 在调用线程小心地传递指向非共享数据的指计时，它才是可重入的。例如 

数就是隐式可重入的 g 

我们总是使用术语可重入 （ reentram ) 来包括显式可重入函数和隐式耵重入函数。然而，认识 
到可重入性有时同时是调用者和被调用者的属性，并不只是被调用者单独的属性，是非常重要的 & 


13*35 中的 


» 习 颡 13,8 


■ 3.33 中的 grthMibynEiM.ts A*t 4 戍 41 安金的 ，钽 不是可 t 入的 . 请麟 ft 吨明 . 


13.7.3 &多 被掊稱 序中使用已存在的库 S 奴 

大多 fr Unix 嘁数 *3 定义 I 标准 C 痄中的 IfiR imtS ： malioc 


U)Cn prinir scaiif 1 fl! 

是线柑安 全的. 只有一小 部计畏恻外* If ) 13.3* 列 Hi f 霣£拊例外， 《孩# 叫]可以得到一个宪帘的 
列农■》 


H ■羊 S 全 2B 






鷺 AitJ 


i ， M_r 


*(TMN 


acrccihLr 


i\UC%i 


3.DCC1 






^Qtli^flLby-Hlidr 


C.b^Cby.pJiB 8 r 


7 echmtbyn 




-■ if .- 


anict_Dtiaki 




iKDltine 


iDCiltir ^ 


r 


m : 3 J £ 甫见的线拽不安全! 

tocakUi 数蛙 fe 不 R 钳冋 和数据格式间柑互来回转 ft 时婷 t 使用的由敢， 
pth^lbyaddr 和 irKLntM 螭数 fi& 们乜弟12 •泛中进 f] 过 的、 杜常«用的两珞编我 

4数* mot 由截个过时丁枸 （也就 是不再 S 助 (¥ 呵时）坷来分折字符串的 rtR ， 

除了 rand 和以外， 所存达 些线程不安全函歉錮是第3莱的，它们遐回 ％ 个指问静 4 i 变最 

的掛针-苽6在一个多线拧 ffi 中咋调用这些甬教中的某一个 r 邏簡 

的袂点是外步降 了构序 的璁度 * 吏 进步. 这冲方袪对像 「 lukI 
这样依 教時越调用的朴娈状态的《2类甬数叶+存效- m , un »^ 

的可 t 入版本 u 叫1入饭本 拘名宇慝以后嘩结尾_阕_. S rfK ^ b 芦可重入叛本就 I 叫 
做赵不牟的 It * 关 f Ufiii 的呵 t 入的文0稂*^拌 FL 在不冋的 Unj ! t 系统 h 存 
不冋的 接口. 闲为这个 除因， 我们《议《免使用它们. 

1374竞争 

当一个界序的正味性体 缞？ 一 个铼程 费在另一个线再到达 y 点之的到达它•的控 》] 流中的 i 点时, 
硪会犮生*争通常发生竟争是 NAfe 序 Mfe 定钱 S 将按播某种犄 株的犰线 f 过执 t / 状态空 
«,而芯 itS 了另 《 条祚_钱龙 ： 多钱涯程序必須对仟柯叫什时轨线 笫正桶 工作， 

向子的最 《1 笮的方法_ ibffitJ JfelfiHl 13.37 中的 阶紙用序.主 线杩创 迮7网 
个对等线枸.丼伟递一个捎向一个 增一的 »数 id 的指對到毎个钱 fi . 毎个対等线程畀 Pit 的多 ffi 
中传进的 id n — 个场部变鹹中 ofrtmy r 舞后_出一个包古雄个 id 的信总， 
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code/conc/race. c 


1 # include '" csapp.h 

2 #define N 4 


void *thread(void *v^rgp )； 


int main () 


pthread_t tid [ H ]； 


9 


10 


£or (i 二 G; i < tf; i++) 

Pthread^create (Sitidfi], HULL f thread, ki ); 
for (i - 0; i < M; i++) 

Pthread_join(tid[i] f NULL )； 




12 


12 


14 


IE 


exit(0)? 


16 


17 


IE /* thread routine */ 

19 void * thread(void * vargp ) 


20 


21 


int myid 

printf("Hello from thread % d \ n % myid } 

return NULL; 


((int * ) vargp ); 


22 


23 


24 } 


code / conc / race.c 


13.37 一个带竞争的程序 
它看上去足够简单，但是当我们在系统上运行这个程序时，我们得到以下不正确的 结果: 




jniJ ：> ./race 
Hello from thread 1 
Hello from thread 3 
Hello from thread 2 
Hello frorn thread 3 


问题是由每个对等线程和主线程之间的竞争引起的。你能发现这个竞争吗？下面是发生的 情况: 
当主线程在第12行创建了一个对等线程，它传递了一个指向本地栈变量 i 的指针。在 此时， 竞争出 
现在 F -次在第12行调用 pthreadj ^ ate 和第21行参数的间接引用和陚值之间.如果对等线程在主 
线程执行第 U 行之前就执行了第21行，那么 myid 变童就得到正确的 ID 。 否则，它就包含的是其 
他线程的令人惊慌的是，我们是否得到正确的答案依赖于内核是如何调度线程的执行的。在我 


13 
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的系统中它失 畋了， SUlit 其他系统中它叫晚就柚正唏工让税 fK " 手.热地_察觉 ，到 R 
序的严重_谋_ 

A 了渭除 我 tf ] 可以功盔地为每个 ffittQ 分 k 一 个祖岌 的块，并 nft 班铨线 w 例 w — 个 
以向这 个块的 t » 针 ， km 13 J * 所 t 笫 12〜14 f) a iJUtit 味程倒 程必洩 释放这_块以时 Krfifi 




^ m \ m 统上逅叶这个 w 序时，我们现在洱 h 了 iK 桷 m 纺聚 ； 


u 蛤 iic > ^ 

H#1 1 Q f™m thread D 

iltli^n £ ra m thread 1 

McIId ttom tlififrifi 2 

Hel fr ™ thread 2 


» 习 K t 3.8 h ，- r 

衣 ffl IUS 中，我们可铯想要在 iJitft t 的第 U 杆后 i*Ffr 放巳分的存钴器唤，而不是在叶 
辛幾稍令释枚它_但足这会 i +± T ： iii |， 为什么？ 


m^m taio 

m ]3,3 fl +, 成们通 ii 为鲁个 tt * _!> 分 fc —今的块来珠味素争.耠出^个不诉用 
mLIm 或者_函板的芥 W 的 t 法. 

H , 这_方法的杀:评 是旮 么？ 
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#de£iri.* H i 
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id * t hread I void ^vargp) r 




# ini rrainl I 


1 


pthrwd—t fcl - d[JJl 

ptr ； 


ID 


II 


lot |1 凰 Dj i < Hj i#*) { 

ptr ： = KallO€ lint I 1 r 

- ptr = if 

Pthrea^LciiB^Eiff(it i411], TWLi F thr^d. ptrl 
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15 


16 
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Pthread_join(tid[i]^ NULL 


17 


18 


exit(0) 


19 } 


Q 


21 /* thread routine */ 

22 void *thread[void *vargp) 


23 


in 匕 cnyid - * ( (int vargp) : 

Free[vargp); 

printf { ,r Hello from thread %d\n n r myid )； 

return NULL; 


24 


25 


26 


27 


28 


code/conc/norace. c 


13.38 图 13.37 中程序的一个没有竞争的正确版本 


13.7.5 死锁 

信号量引入了一种潜在的令人厌恶的运行时错误 f 叫做也锁 ( deadlock ) ,它指的是一织线程被 
阻塞了，等待■■个永远也不会为真的条件6进度图对 f 理解死锁是--个无价的丁具。例如，图1339 
展示了一对用两个信号量来实现互斥的线程的进稈图。从这幅图中，我们能够得到一些关 f 死锁的 
重要知识 ： 


程序员使用 P 和V操作顺序不当，以至两个信号量的禁止I?(域 〔forbidden region ) 重叠 & 
如果某个执行轨线偶然到达了死锁 祆态丄 那么就不可能有进一步的进展/，因为重#的禁 

止区 域阻塞 r 每个合法方，句1：的进度。换句话说，程序死锁是因为每个线程都在等待其他 
线程执行--个根不可能发生的本V操作。 

重叠的禁止区域引起了一组称为死销区域 (deadlockr&gion ) 的状态。如果-个轨线偶然到 
达了-个死锁 E 域中的状态，那么死锁就是不可避免的了 D 轨线可以进入死锁区域，何是 
它们不可能离开。 

死锁是-个相当 困难的 问题，因为它不总是可预测的，一些幸运的执行轨线将绕开死 
锁区域 * 而其他的将会陷入这个区域。图 13.39 展示了每种情况的■个示例。对于程序 
员宋说，这其中隐含的着实令人惊慌。你可以1000次运行一个程序不出任何问题，但 
是下一次它就有可能会死锁。或者程宇在一台机器上町能运行得很好， m 是在另外的 
机器 b 就会死锁，最糟糕的是，错误常常是不可重复的，因为不同的执行有不同的轨 


线 


程序死锁有很多原因，要避免死锁一般而言是很困难的 D 然而，刍使用二进制信号量来实现互 
斥时，如图 13.39 所示，你可以应用 F 面的简单而有效的规则来避免死锁： 

亙斥锁加锁顺序规則：如果对于程序中每对互斥锁0,每个既包含 s 也包含 t 的线程都按 
照相同的顺序同时对它们 加锁， 那么这 个程宇 就是无死锁的 & 

例如，我们可以通过这样的方法宋解决图 13.39 中的死锁问题：在每个线程中先对 s 加锁，然 


m 


fw 对 1 加 f . 图展示了的进 i 田 


9 Hz 
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或程1; 
P (&); 

V (s); 


线程2; 
P(s); 

V (s); 

P (t )； 

V (t); 


P (t); 


V (t); 

A , 画出这个程序的进度图. 

B. 它总是会死锁吗？ 

C 如果是，那么对初始信号量的值倣什么简单的改变就能消除这种潜在的死锁呢? 
D . 凾出得 到的无圯锁程序的进度图， 


13,8小结 


- 个并发程序是由在时间上重叠的一组逻辑流组成的。在这一章中，我们学习了 H 种不同的构 
建并发程序的 机制： 进程、 I / O 多路复用和线程。我们以一个并发网络服务器作为贯穿全章的应用 


程序, 


进程是由内核自动调度的，而且因为它们有各自独立的虚拟地址空间，所以要实现共享数据， 
它们需要显式的 IPC 机制。事件驱动程序创建它们自己的井发逻辑流，这些逻辑流被模型化为状态 
机，用 I / O 多路复用来显式地调度这些流.因为程序运行在-个单-进程中，所以在流之间共享数 
据速度很快而且很容易。线程是这些方法的综合。同基于进程的流一样 t 线程是由内核自动调度的。 
同基于 I / O 多路复用的流一样，线程是运行在一个单一进程的上下文中的，因此可以快速而方便地 
共享数据。 

无论哪种井发机制，同步对共享数据的并发访问都是一个困难的问题。提出对信号 t 的 P 和 V 
操作就是为了帮助解决这个问题 4 信号量操作可以用来提供对共享数据的互斥访问，也对诸如生产 
者-消费者程序中共享缓冲 E 这样的资源访问进行调度。一个并发预线程化的 echo 服务器提供了这 
两种信号量使用场景的很好的例 f 。 

并发性也引入了其他…些困难的问题 & 被线程调用的函数必须具有一种称为线程安全的属性。 
我们定义了四类线程不安全函数，以及一些将它们变为线程安全的建议。可重入函数是线程安全 
函数的一个真子集，它不访问任何共享数据。可重入函数通常比不可重入函数更为有效，因为它 
们不需要任何同步原语。竞争和死锁是井发程序中出现的另一些困难的问题。当程序员错误地假 
设逻辑流该如何调度时，就会发生竞争。当一个流等待一个永远不会发生的事件时，就会产生死 


锁 


参考文献说明 

信号置操作是 Dijkstra 提出的 [24] 。 进度图的概念是 Coff_[16] 提出的，后来由 C 
Reynolds[10] 正式化 Butenhof 的书 [9] 对 Posk 线程接口有全面的描述， BirreU[4] 的文章对线程编 
程以及线程编程中容易遇到的问题做了很好的 介绍， Pugh 描述了 Java 线程通过存储器进行交互的 
方式的缺陷.并提出了替代的存储器模型[611。 


和 
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家庭作业 


13.12 ♦ 

编写 个 hello.c (图 13,13) 的版本，使得它创建和回收个可结合的 ( joinable ) 对等线程, 
其中是一个命令行参数。 


13.13 




A , 图13,41中的程序有 个 bug。 要求线程睡眠一秒 f 然后输出个字符串。然而，当在我 1 H 
的系统上运行它时，却没有任何输出。为什么？ 

B. 你 pj 以通过 用两个不同的 Pthreads 函数调用中的一个替代第9行中的 exit 函数，朿改 E 这个 
错误。选哪一个呢？ 


cod €/ conc / hellobug,c 


#include N csapp.h JF 

void + thread(vcid *vargp )； 


1 


2 


int main() 


d 




6 


pthread^t tid； 


7 


Pthread„credte(&tid, NULL r thread ； NULL) 
exit(0); 


10 


11 


thread routine */ 

void *thread(void *vargp) 


12 


13 


14 


15 


Sleep(1 )； 

printf 1 11 Hello, world! Xn 1 ) 
return NULL; 


16 


17 


IB j 


code/conc/hellobug, c 


13.41 习题 13.13 的有 bug 的程序 


til 


13,14 ♦♦ 

检查一下你对 select 函数的理解，请修改图 13.6 中的服务器，使得它每次在主服务器循环中最 

多只回送一个文本行。 


13.15 ♦令 

13-8 中的事件驱动并发 echo 服务器是有缺陷的，因为一^恶意的客户端能够通过发送部分 
的文本行，使服务器拒绝为其他客户端服务。编写一个改进的服务器版本，使之能够非阻塞地处理 
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这些部分文 本行。 


13.16 


Rk >I/0 包中的函数 （11.4 节）都是线程安全的。它们也都是可重入函数吗 


13.17 ♦ 

在图 13.30 中的预线程化的并发 echo 服务器中，每个线程都调用 echo_cnt 函数（图 13.13) 
eduumt 是线程安全的吗？它是可重入的吗？为什么是或为什么不是呢？ 




13.1 B 

一些网络编程的文献建议用以 F 的方法来读和气套接字：和客广端交互之前，在同一个打开的 
己连接套接字描述符 t , 打开两个标准 I/O 流，一个用来读， 一 个用来 


FILE # :pir. F ^fpout ; 


fpin = fdcpenfsockfd, 
fpout = fdopentsockfdp"w n ) : 


) 


r 


■ 

t 


当服务器完成和客户端的交互之后，像下面这样关闭两个流: 


fclose ； fpin ) ； 

fclose(fpcut )； 


然而 T 如果你试图在基于线稈的并发服务器上尝试这种方式，你将制 造-个 致命的竞争条件。 


请解释。 


13.19 


在图 13.40 中，将两个V操作的顺序交换，对程序死锁是否有影响？通过画出四种可能情况的 
进度图来证明你的 答案： 




线程 1 


线程 2 


P(s) 


Pit ) 


p ⑴ 


p(t) 


p ( t ) 


p { t ) 


p(tj 


p(t) 


voj 


Vfs ] 


V(s) 


V(t) 


V{s} 


V(t) 


V{t) 


V(t) 


Vfs) 


V(t) 


Vfs] 




13,20 




下面的枵序会死锁吗？为什么? 


Initially : a ; 1, b 


Thread 1: Thread 2 


■ 

w 
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P(c) ; 

P(b) ; 


P(a); 
P(b); 
V(b); 
Vic) i 
V(c); 
V(a); 


V(b) 


V(c )； 


13.21 


考虑下面这个会死锁的程序段。 


Initially:a = 1, b = 1 


Thread 3 


Thread 2 ： 
P (c); 

P(b); 

Vtb )； 

V(c); 

P(a )； 

V(a) ? 


Thread 1 : 

P(a); 
P(b); 
V(b); 

Pic }; 

v (c )； 

V(a); 


EMc); 
V(c }； 
P(b )； 

P(a); 
V(a); 
V(b) r 


A . 列出每个线程同时保持的一对互斥锁 Q 

B . 如果 a < b < c , 那么哪个线程违背了互斥锁加锁顺序规则？ 

C . 对于这些线程，指出一个新的保证不会发生死锁的加锁顺序。 

13.22 ♦♦♦ 

实现标准的1/0函数 fgets 的一个版本，叫做 tfgets , 假如它在5秒之内没有从标准输入上接收到 
一个输入行，那么就超时，并返回一个 NULL 指针。你的函数应该实现在一个叫做 tfgets - select . c 的 
包中，使用进程、信号和非本地跳转，它不应该使用 Unix 的 alarm 函数 D 使用图 13.42 中的驱动程 

序测试你的结果。 

13.23 ♦♦♦ 

使用 select 凼数来实现练习题13,22中 tfgets 函数的一个版本。你的函数应该在一个叫做 
tfgets - select . c 的包中实现 6 用练习题13,22中的驱动程序测试你的结杲。你可以假定标准输入被陚 

值为描述符零 


13.24 ♦♦令 

实现练习题 13.22 中 tfgets 函数的一个多线程版本。你的函数应该在一个叫做 tfgets - select 的 
包中实现，用练习题 13.22 中的驱动程序测试你的结果。 

13.25 ♦♦♦ 

实现一个基于进程的 Tiny Web 眼务器的并发版本。你的解答应该为每一个新的连接请求创建一 
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个新的了进程 & 使用一个实际的 Web 浏览器来剷试你的解答。 


code/conc/tfgets-main, c 


#include "csapp,"h 


int size, FILE *stream )； 


char *tfgets(char 


s 


int main() 


5 


char buf[MAXLINH] 


if (tfgets (buf F KAXUNE, stdinl 

printf ( u BOOMi\n rt )； 


NULL) 


10 


else 


11 


12 


printf f Is", buf) 


13 


14 


exit (0) 


15 


code/conc/tfgets-main, c 


13,42 习通 13,22 〜 13.24 的驱动程序 


13.26 ♦♦♦ 

实现〜个基于 I/O 多路复用的 Tiny Web 服务器的并发版本。使用一个实际的浏览器来测试你的 


解答。 


13.27 ♦♦令 

实现一个基于线程的 Tiny Web 服务器的并发版本。你的解答应该为每一个新的连接请求创建一 
个新的线程。使用 - 个实际的浏览器来测试你的解答 D 

13.28 ♦ ♦♦令 

实现一个 Tiny Web 服务器的并发预线程化的版本。你的解答应该根据当前的负载，动态地增加 

或减少线程的数目。〜个策略是当缓冲区变满时，将线程数量翻倍，而当缓冲区变为空时 t 将线程 
数目减半。使用一个实际的浏览器来测试你的解答。 

13.29 ♦♦♦♦ 

Web 代理是一个在 Web 服务器和浏览器之间扮演中间角色的程序。浏览器不是直接连接服务器 
以获取网页，而是 _ 代理连接，代理再将请求转发给服务器 & 当服务器响应代理时，代理将响应发 
送给浏览器。实现这个试验，请你编写一个简单的可以过滤和记录请求的 Web 代理： 

A. 试验的第一部分中，你要建立以接收请求的代理，分析 HTTP ， 转发请求给服务器，并巨返 
回结果给浏览器 & 你的代理将所有请求的 URL 记录在磁盘上一个日志文件中，同时它还要阻塞所有 
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对包含在磁盘 h - 个过滤文件中的 URL 的请求。 

B . 试验的第二部分中，你要升级你的代理，它通过派生一个独立的线程来处理每一个请求，使 
得你的代理能够一次处理多个打开的连接。当你的代理在等待远程服务器晌应一个请求使它能服务 
于个浏览器时，它应该可以处理来自另一个浏览器未完成的请求 t 

使用一个实际的浏览器来检验你的解答。 

练习题答案 

练习题 13.1 答案 

当父进程派生 T 进程时，它得到一个已连接插述符的副本，并将相关文件表中的引用计数从1 

增加到2。当父进程关闭它的描述符副本时，引用计数就从2减少到因为内核不会关闭一个文件^ 
直到文件表中它的引用计数值变为零，所以子进程这边的连接端将保持打开。 

练习越 13.2 答案 

当-个进程因为某种原因终止时，内核将关闭所有打幵的描述符。因此，当子进稈退山时，它 
的连接文件描述符的副本也将被 ft 动关闭。 

练习题 13.3 答案 

回想一下，如果-个从描述符中读-个字节的请求不会阻塞，那么这个描述符就准备好可以读 
T. 假如 EOF 在一个描述符上为真，那么描述符也准备好可读了，因为读操作将立即返回一个零返 
回码，表示 EOF. 因此，键入 Orl-d 会导致 select 函数返回，准备好的集合中有描述符 0 。 

练习甄 13.4 答案 

因为变量 pool . read.set 既作为输入参数也作为输出参数，所以我们在每，次调用 select 之前都 
重新初始化它 D 在输入时，它包含读集合 t 在输出，它包含准备好的集合。 

练习题 13.5 答案 

因为线程运行在同一个进程中，它们都共享相同的描述符表。无论有多少线程使用这个己连接 
描述符，这个已连接描述符的文件表的引用计数都等于一。因此，当我们用完它时，一个 close 操 
作就足以释放与这个已连接描述符相关的存储器资源了。 

练习® 13.6 答案 

这里的主要的意思是说 t 当共享全局和静态变童时，静态变童是私有的，诸如 cnt 这样的静态 

变童有点小麻烦，因为共享是限制在它们的函数范围内的——在这个例子中，就是线程例程。 

A . 下_就是这 张表： 


变1名 被主线程引用 V 被对等线程0引用？ 被对等线程1引用? 


是 


是 


是 


否 


是 


cnt 


是 


是 




否 
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( 续表 ) 


变置名 被主线程用？ 被对等线程0引用？ 被对等线程1引用? 


是 


& 




TTisg^ .m 


是 


myid h pO 


否 


否 


否 


是 


myid + pl 


说明 


ptr： -个被主线程写和被对等线程读的全局变量。 
cnt: —个静态变量、被两个对等线程读和写，在存储器中只有-个实例。 

个存储在主线程栈中的本地自动变量。虽然它的值被传递给对等线程，但是对等线 
程也决不会在栈中引用它，因此它不是共享的。 

:一个存储在主线程栈中的本地自动变量，被两个对等线程通过 pir 间接地引用。 

• myid.0 和 myid.l: 分别驻留在对等线程0和线程1的栈中的一个本地自动变貴的实例。 
变量 ptr、cut 和 msgs 被多于一个线程引闬，因此它们是共享的。 

练习题 13.7 答案 

这里的重要思想是，你不能假设当内核调度你的线程时，会如何选择顺序6 


1111 


■■■— 1 


B^BH 


hIIIIi 

mmmmmmmmwmmm 


变量 cm 最终有一个不正确的值 ——] 。 

练习题 13.8 答案 

辟《1030^11脚6_泛函数不是可重入函数，因为每次调用都共享相同的由 gethostbyname 函数返回 
的 static 变量。然而，它是线程安全的，因为对共享变量的访问是被尸和1/操作保护的，因此是互 
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m 
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13+44 正确的无死锁的程序的进度图 
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A .1 HCL 参考手册 

在第 4 章中，我们用 HCL (Hardware Control Language 1 硬件控制语言）来描述了几种处理器 

设计的控制逻辑部分 D HCL 具有 - 些硬件描述语言的属性，允许用户描述布尔函数和字级选择操作 e 
另一力面，它缺乏许多在真正的 HDL 中能找到的特性，例如，声明寄存器和其他存储元素的方法， 
循环和条件构造，模块定义和实例化的能力，以及位提取和插入操作。 

HCL 实际上只是一种语言，用于生成固定格式的 C 代码， HCL 文件中的所有块定义都由稈序 
HCL2C ( 表示 “HCLtoC” ） 转换成 C 函数，然后再编译这些函数，与实現其他模拟器闲数的库代 
码链接，产 1( 讨执行模拟程序，如 K 图所小： 


pipe-std.c 


pipe-atd,hcl - - ► hcl2c 


4 执行根拟器 


pipe tty 


gcc 


模拟器库函数 


tty .a 


这张图展小的文件被用来生成流水线模拟器的文本版本。 

叮以直接用 C 农推述控制逻辑的行为，而不必写 HCL , 然后再翻译成 C 。 使用 HCL 的优点是 
我们吋以更清晰地区分硬件的功能和模拟器的内部工作方式。 

HCL 只支持两种数据类型： bool (表示“布尔”）信号要么是0,要么是1,而 int (表示“整数”) 
信号等价于 C 中的 ㈤ 值，数据类型 im 用 f 表小’所有的多位信号类型，例如，字、寄存器 id 和指令 
代码。3转换成 C 时，这两种数据类型都表示为 int 数椐 . 只不过 bool 类型的值只能等于0或者1 


CI 


A .1.1 信号声明 

HCL 中的表込式<以引用整数或者布尔类型的命名信号。信号名必须以字母 （ a 〜 z 或 | A 〜 Z) 
开头，后面可以是任意数量的字母、数字或者下划线（_)。信号名是大小写敏感的 。 HCL 布尔和整 
数表达式中的布尔和整数信号名实际上就是 C 表达式的别名 a 信号的声明也定义，相关的 C 表达式。 
信号声明 nj 以具有如卜形式中的一种 ： 


boolsig 

intsig 


'C-expr 

’C-expr 


name 


name 


这里， C^expr 可以是任意的 C 表达式，除了它不能包含单引号 （ O 或者换行符 （ \n) 以外 3 
3 产斗 : C 代码时， HCL2C 会用相应的 C 表达式替换所有的信号名。 


A .1.2 引号引起来的文本 

引号引起来的文本提供了一种从 HCL2C 直接传递文本到生成的 C 文件 的机制 D nj 以用它来插 
入变量声明、 include 语句，以及其他一些通常能在 C 文件中发现的东西。通用格式为： 


guote String 


gluing 可以是任何不包含甲.引号 C 1 ) 或者换行符 （\n) 的字符串。 
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A .1.3 表达式和块 

有两种类型的表 达式： 布尔表达式和整数表达式，在我们的语法描述中分别称为 boo ]- exp r 和 
int - cxpr , 图 A ,1 列出同的布尔表达式类型。按照优先级的降序排列，同一组（组与组之间由水 
平线分隔）内的操 作具有 相等的优先级。可以用括号来改变普通的操作符优先级。 

最高级是常数值0和 h 以及命名的布尔信号。优先级低一级的是以整数为参数但是得到布尔 
结果的表达式。集合成员关系测试将第一个整数表达式 im-expr 的值与组成集合的每个整数表达式 
的值 (im-expt,， … M-expM 相比较，如果发现相 K 配的值，结果为1。关系操作符比较两个 整数表 达 
式， 当关系满足时，产叱1，当关系不满足时，产生0。 


含义 


语法 


逻辑值0 
逻辑值1 

命名的布尔信号 
集合成员关系測试 

相等测试 
不等测试 
小丁澜 W 
小干或艿十測试 
大 f 测试 

大十或眾十腓试 


name 


int-expr i ri ( mi-expr^int^xp^ -% in 卜 expa ] 


itn-expr' = mt-expr2 

in(-expri T= mi-expr: 

int-expr] < int-expr: 

hi-expr] <- in ： -expr2 
int-expr\ > int-exp^_ 
int-expo >= int-expr^ 

} booi-espr 


biMjl-expr] && booi-e^pr^ 


And 


bcfol-^xpry [I bool-expri 


AA HCL 布尔表达式 


这些左达式求值为 0 或者 h 操作是按照优先级的降序排列的，每 ■■组 内的搡作具有相等的优先级。 

阌 A+1 中剩下的表迗式是由使用布尔迕接符的公式组成的 （! 表示 Not, &&表示 And， 而II表示 


Or ) 口 


只有 二:栌 类型的整数表 迖式： 数字、命名的整数佶号和情况 （case) 表达式。数字是以十进制 

表小法书写的， nj 以为负 9 命名的整数信号使用同前面讲过的一样的命名规则。情况表达式有>_面 
的一般 形式： 


bool-expr' : im-expr^ 
bool-expr 2 : int-expr 2 


bool^expr^ : int-expr^ 


表达式 包含 - 系列情况，每种情况 i 是 i 彳一个布尔发达式 bool-exprj 和 - 1 个整数表达式 int-expr, 
组成，前者表明足否该选择这种情况，而后者是对于这种情况得到的值。在对一个倩况表达式求值 
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时，布尔表达式是按照顺序被求值的。一旦有一个布尔表达式得到1，那么相应的輳数表迖式的值 
就作为情况表迖式的值被返回。如果没有布尔表达式求值为 L 那么这个情况表达式的值就为0。 一 
个好的编程习惯是让最后-个布尔表达式为1，以保证至少有一个匹配的情况。 

HCL 表达式被用夹定义组合逻辑块的行为。块的定义有以 F 形式 之一： 


= hool-expr^ 


bool name 


int name - int-expn 


这电，第一种形式定义的是布尔块，而第_种定义的是字级块。对； r 一个声明为以 


为名 


name 


字的块， HCL2C 产生一个函数 gen 


这个函数没有参数_而它返冋一个 int 类型的结果。 


name 


A -1.4 HCL 示例 

下面这个例给出了一个完整的 HCL 文件，用 HCL2C 处理它得到的 C 代码是完全自包含的。 
可以编译这个代码，并带上表示输入信号的命令行参数运行它。史加典型的情况是， HCL 文件只定 
义模拟模型的控制部分。然后生成出来的 C 代码被编译，并4其他代码链接，形成 nj 执行模拟器。 
我们展示这个示例只是为了给出 HCL 的一个具体的例子。该电路是基 f 424节中描述的 MUX4 电 
路的，其结构 如下： 


si 


so 


D 


c 


0ut4 


MUX4 


B 


A 


tt# Simple e>：arnple o£ an HCL file 

## This file 


be converted to C using hcl2c, and then compiled 


can 


#廿 In this example, we will generate the MUX4 circuit shown in 


## Section 4,2*4. it consists of a control block that generates 
## bit-level signals si and sO from the input signal code, 

## and Lhen 


6 


these signals tc control 

tf# with data inputs A, B f C, and D. 


4-way multiplexor 


uses 


a 


10 ## This cDd^ is embedded in 


C program that reads 

11 ## the values of code r A f B f c, and D from, the cq 腿 ard line 

12 ## ana then prints : he circuit output 


a 


13 


14 #f# Information that is inserted verbatim into the C file 

ih quote ， #include <sLdio.h> f 

]6 quote r #include <sLdlib.h>' 

17 quote f int code_val P sO_val ； sl_val?' 

18 quote ’ char * *data_naines ; J 


19 
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20 #4 Declarations o£ signals used in the HCL description and 

21 #4 the corresponding C expressions, 

22 boolsig aO 1N 

23 boolsig si 1 sl_val 1 

24 intsig code 

25 intsig A 'atoi(data_names [0]) * 

26 intsig B (data 一 names[1]> ■ 

21 intsig C ' atoi (data_nairies[2] ) 1 

28 intsig D p atoi (data_nait\es[31 \ 1 


29 


30 t# HCL descriptions of the logic blocks 

31 bool si = code in ( 2, 3 }; 


32 


3 3 bool sO 二 code in E 1 ^ 3 }; 


34 


35 int Out4 


36 


is ： && !s3 


A; # 00 

B; # 01 

C; # 10 

: D; # 11 


37 


!s ： 


38 


si ^ tsQ 


39 


40 


]； 


41 


42 


## More information inserted verbatim into the C code to 
## compute the values and print the output 
quote 'int main[int argc, char *argv[]) ( 1 
quote 『 datd_naine^ = argv+2; 

quote 1 code_val 

quote 1 sl_val ; 
guote 'sO 一 val = 
quote 'printf('Out 二 %d\n 
quote 1 return 0; p 
quote _] 


43 


44 


45 


46 


atoi(argv[l])； 1 
gen 一 si () ; 1 
gen_s0 {) r 




47 


48 


49 


gen_Oiit4 ()) 


50 


51 


r 


这个文件定义了布尔信号 sO 和 si ， 以及整数信号 code ， 作为对全局变量 sO _ val 、 sl _ val 和 code_val 

引用的别名。它还声 明了整 数信号 A 、 B 、 C 和 D ， 这里，相应的 C 表达式对于作为命令行参数传 
递进来的字符串应用标准库函数如^ 

名字为 si 的块的定义生成下列 C 代码： 


int gen_sl() 


return ((code_v^l} == 2 I 1 (code—val) 


3); 


从这里可以看出，集合成员关系测试是以一系列的比较宋实现的，每次对信号 code 的引用都被 
替换成了 C 表达式 code_vaL 
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附录 A 


注意，这个 HCL 文件第23行卜_声明的信号 si 与第31行[:卢明的名为 si 的块之间没冇直接的 
关系。一个是 C 表达式的别名，而另一个产生名为 gerusl 的函数。 

最后被引号引起来的文本产牛下列主阕数： 


int main(int srgc p char *argv[]) { 

data 


argv 十 2; 

code_val = atoi(argv[1]1 


names 




gen_sl ()； 
sO_val = gen_sO(]; 
printf{"Out 

return 0; 


si val 




%d\n° r gen_0uL4 ())； 


主函数调用媧数 gen_ S l、g en _ S 0 和 g e iu0ut4, 这些函数都是根据块定义生成的。 我扪还 邛以看 
1UC 代码必须如何定义块求值和设置值的顺序，这些被设置的值被用在表水小 N 信号值的 C 表达式 


中。 


A.2 SEQ 


code/a rch/seq/seq-std. hcl 

## #ffr ######## 

4 HCL Description of Control for Single Cycle Y86 Processor SEQ # 
4 Copyright (C) Randal F] + Bryant, David R, O^dllaron, 2002 
#######################«### ft########## #it ########### ################ 




4 


###?## ## ######## ###### ###### m######## ############################# 

# C include 

#########Hft########################################### 


7 


Den 1 1 alter these 


K . 


s 


10 


quote p ^inc]ude <stdio,h> 1 

quote 1 #include n isa.h" 1 
quote '#include M sim.h" 1 

quote 1 int sim_main( int arge:, char *argv[ ] } 
quote _int gen_pc(){return 0；} 1 


U 


12 


13 


14 


15 


quote 1 inL main(int drge, char *argv[]) 1 
quote 


16 


{plusmode=0;return sim_main(arge,argv)；) 


17 


18 


f Declarations. Do not change/remove/delete dny of these # 


19 


20 


21 


22 


##### Symbolic representation of Y86 Instruction Codes ################### 
intsig INQ? 

intsig IHALT 


23 


1 I EOP ， 


24 


I HALT 
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25 


intsig IRRKOVL 
intsig TIRKOVL 

intsig IRMMOVL 
intsig IMRMOVL 

intsig IOPL 

intsig UXX 
int-Sig ICALL 

intsig tret 

intsig IPUSHL N I__PUSHL 
intsig IPOPL 


I RRMOVL 


I 


26 


I_IRMOVL 

l_RMMOVL 

i__mmvb 

I ALU 


27 


28 


29 


I 


30 


I JMP 


31 


I CALL 


n 


\ RET 


33 


34 


■I POPL 


l 


35 


36 


Symbolic representation of Y86 Registers referenced explicitly ##### 
intsig KES? 

intsig RHONE 


37 


# Stack Pointer 

# Special value indicating "no register^ 


^EG^ESP 1 
-R3G KONE 1 


38 


33 


40 


littJMr# ALU Functions referenced explicitly 
intsig ALUADD ， A—kDU 


##### 


41 


# ALU should add its arguments 


42 


43 


##### Signals that can be referenced by control logic #####^############## 


4d 


4b 


##### Fetch stage inputs 
iitsig pc n pc 1 

Fetch stage computations 
intsig icode fc icode 

intsig i£un r ilun 1 
intsig rh 

intsig rB 
intaig vd 丄 C 'vale 

intsig valP 1 valp 


##### 

# Program counter 

# Instruction control code 

# Instruction function 

梓 rA Eield from instruction 

林 rB field from instruction 

# Constant from instruction 

# Address of following instruction 


46 


47 


48 




49 


5Q 


ra 


51 


rb 1 


52 


b3 


54 


5S 


#♦### Decode Stage computat.ions 

inLsig valA 

intsig valB 


56 


vald 

valb 


# Value from register A port 

# Value from register B port 


57 


I 


b8 


59 


#H## Execute stage computations ##### 
intsig valE 

boolsig Bch 


60 


vale 1 

bcond 


# Value computed by ALU 

# Branch test 


■■ 




52 


63 


#^### Memory sU^ge coirputdtions ##### 
intsig valM 1 valm p 


64 


# Value read from memory 


65 


66 


67 


样料#朴# 料牯 胂 ### 料 # 料料料 ######################## 料 ######### 料 ##### 

Control Signal Definitions 


68 


# 


69 
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70 


71 Fetch Stage 


72 


# Does fetched instruct ion require a regid byte? 

bool need_reg:ds = 


73 


74 


icode in { IRRMOVL P I0PL, IPUSHL, I?OPL, 

IIRMOVL, IRMMOVL, IMRMOVL }? 


75 


76 


77 


13 


# Does fetched instruction require d constant word? 
bool need vale = 


79 


80 


icode in ( 11 RMO VL, IRMMOVL f IMKMOVL, IJXX f ICALL }; 


81 


bool instr 一 valid = icode in 

(INOP, IHAIT, IRRMOVL, IIRMOVL, I RMMOVL, IMKMOVL 

I0PL, IJXX, ICALL, IRET, IPUSHL, IPOPL }; 


82 


83 


84 


8b 


################ Decode Stage ##########*######################## 


86 


87 


## What register should be used as the A source? 
int srcA 


88 


89 


■ 

b 


90 


icode in { 1KRMOVL, IRiy^OVL, IOPL ； IPUSHL } : rA 
icode in [ IPOPL, IRET } : RESP ； 

1 : RNONE ； # Don 1 t neec register 


91 


92 


93 


■ 

■ 

. I 


94 


9^ 


## What register should be used as the B source? 
int srcB 


96 




97 


icode in { IOPL, I RMMOVL, IMRMOVL } i rB; 
icode in { IPUSHL, IPOPL, ICALL, IRET } : RESP ； 
1 : RNCNE; # Don 1 1: need register 


98 


99 


100 ]; 


101 


102 ## register should be used as the E destination? 

103 int dstE 二 [ 


104 


icode in ( IRRMOVL, : [IRMOVL, TOPL) : rB; 

icode in { IPUSHL, IPOPL, ICALL, IRET } : PESP; 
1 : RNONE- # Don 1 t need register 


105 


1G6 


103 


109 ## What register should be used 

110 int dstM 


the M destination? 


as 




111 


icode in ( IMRMOVL P IPO^L ) : lA 

1 : R_VONE ； # Don't need register 


112 


113 I; 


114 
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################ Execute Stage #################### 


：16 


117 #ff Select input A to ALU 
11 B ir>t aluA =[ 


119 


Icode in { IRRMOVL f IOPL } : valA; 

icode in { 11RMOVL f IRMMOVL f IMRMOVL } : valC; 

icode In ( IChhL t IPUSHL ^ ； -4? 

icode ia { IRET, IPOPL } ： 4; 

# Other instructions don 1 t need ALU 


120 


121 


122 


123 


124 ]； 


125 


126 #ft Select input B to ALU 

127 iut aLuti 二 [ 


128 


icode in { l RMKO VL, THRMGVL, IO?b f I CALL, 

IPOPL } : valB; 


129 


IPUSHL, IRET 
icode in { IRRMOVL, 11RMOVL } : 0; 

# Other instructions don't need ALU 


130 


131 


132 1 ; 


133 


134 ## Set the ALU function 

135 int alufun 

icode 




136 


IOPL : ifun; 


137 


ALUADDr 


M 

M 


138 ]; 


139 


140 ## Should Lhe condition cades be updated? 

141 bool set 


icode in ( IOPL }; 


cc 




142 


143 Memry Stage ####»#»#########«#«######*######## 


144 


145 ## Set read control signal 

146 bool mem read = icode 


(IMRMOVL, IPOPL, IRET ]; 


in 


147 


148 #=S Set write control signal 

1^9 bool mem write 


icode in ( IRMMOVU IPUSHL ； ICALL ); 




150 


151 ## Select memory address 

152 int mem addr 




153 


icode in { IPUSHL, ICALL, IMRMOVL } : vdl£ 

icode in t : POPL, IRET } : valA; 

伴 Other instructions don p t need address 


154 


155 


156 ]; 


lb7 


158 ## Select memory input data 

159 int mem data = \ 
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160 


# Value from register 

icode in ( IRMMOVL r IPUSHL } : valA 

# Return PC 
icode 


161 


162 


ICALL : valP; 

# Default: Don r t write anything 


163 


164 


16b ]； 


166 


167 Program Counter Update ####### 


163 


169 ## What address should instruction be fetched at 


170 


171 int new_pc 


1 /2 


甘 Call. Use instruction constant 
icode == ICALL : valC? 

S Taken branch, Use instruction constant 

IJXX && Bch : valC ； 


173 


174 


175 


icode 


# Completion of RET 丄 rLstruction* Use value from stack 
icode 


176 


177 


1RF：T - valM? 

# Default : Use incremented PC 




178 


179 


1 : valP; 


130 


codda rch/^eq/seq-sttL hd 


A.3 SEQ+ 


code/a rch/seq/seq^-std hd 
##S4########### Stt###########«#######ff#4###############*# 

# HCL Description o: Control for Single Cycle Y8S Processor SEQ+ 伴 

# Copyright (C} Randal E, Bryant f Davie R. 0 1 Hallaron, 2002 林 

####«###### 件枯 ######### ###### ######### 伴 # 杜 # 杜 ## 伴 


4 


5 


######## ######*#################################### ##### 4 # 

拌 C Include's. Don 1 1 alter these # 

####### ############«#### 


7 


8 


10 


ciuote 1 #include <stdia 1 

quote 1 #include n isa,h ir 1 
quote f ttinclude "sim.h n p 

quote 1 int sim_main(int argc f char *argv；]); 


11 


12 


13 


14 


quote r int gen_new_pc(){return 0;}' 
guote 'int main(int arge, char *argv[]) 

quote 


15 


16 


{plusmode=l?return sim_main(arge,argv) : } 


r 


17 


18 
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19 


DeclaraLio.is* Do not change/remove/delete dny o£ these # 


20 


21 


##### Symbolic representation of Y&6 工 nstruetion Codes ############ 
intsig 工 NOP 

intsig 工 HALT 

intsig IRRMOVL 

intsic IIRMOVL 


22 


23 


I_NOP 1 
I_HALT 

I 一 RRMOVL 
I^IRMOVL 
intsic 工 RMMOVL 1 1 RMMOVL 


24 


1 


\ 


25 


26 


I 


I 


27 


28 


intsig IMRNOVL 

intsig IOPL 

intsig IJXK 
intsig ICALL 
intsig IRET 

intsig IPUSHL 

intsig IPOPL 


I^MRMOVL 

r_Am ■ 

I_JMP f 
I CALL 1 


29 


30 


31 


32 


I_RET' 

1 PUSKL 

■ 

I POPL 1 


33 




3^ 


I 


35 


36 


##### Symbolic representation of Y86 Registers referenced explicitly #### 
intsig RESP 
intsig RNONE 


# Stack Pointer 

’ REG_NCNE 1 # Special value indicating "no register 


F REG ESP 


I 


38 


39 


40 


##### ALU Functions referenced expLicitly 
intsig ALfJADD 


##### 


41 


ft .\LU should add its arguments 


"A ADD_ 


42 


43 


##### Signals that: can be referenced by control logic 林#伴 


44 




PC stage inputs 


##### 


46 


47 


## All of these values are based 
int^ig plcode 1 prev_icode 1 

49 intsig pValC 'prev_valc 1 

50 intsig pValM 1 prev_vdlnV 

intsig pValP 'prev_valp 『 

52 boolsig pBoh r prev 一 bcond_ 


on those from previous instruction 

# Instr, control code 

# Constant from instruction 

# Value read from memory 

# Incremented program counter 

# Branch taken flag 


4b 


51 


53 


b4 


### 诂社 Fetch ^tage computations 
intsig ]code 1 iccde ， 
intsig ifun p ifun 1 
intsig rA 1 ra 1 

intsig rB 1 rb' 
intsig valC 'Vdlc 1 
intsig v ^]P valp 1 


# Instruction control code 

# Tnstruction function 

# rA field from instruction 

# rB field from instruction 

# Constant from instruction 

ft Address of following instruction 


55 


56 


57 


56 


59 


60 


61 


62 


W## 半 # Decode stage computations 
intsig valA 1 vala 1 


##### 

# Value from register A port 


63 
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# Value from register B port 


64 


intsig valB 'valb 


65 


Execute stage computations 
intsig valE 1 vale 1 

toolsig Bch 1 bcond 1 


##"# 

# Value computed by ALU 

# Branch test 


66 


67 


68 


69 


##### Memory stage computations 

intsig valW 1 valm p 


##### 

伴 Value read from memory 


70 


71 


72 


73 


74 

# Control Signal Definitions - # 

76 ^#################^####################4######^##########^######^######## 


75 


77 




Program Counter Conpiitation 


78 


79 


# Coitpute fetch location for this instruction based on results from 

和 previous instruction - 


30 


81 


82 


int pc 


33 


84 


# Call - Use instruction constant 

plcode -= ICALL : pVal^; 

# Taken branch. Use instruction constant 
plcode 

# Completion of RET instruction. Use value from stack 

plcode == IRET : pValM; 

# Default : Use incremented PC 
1 : pValP; 


85 


86 


87 


IJXX && pBch : pValC 


vi 


88 


S9 


90 


91 


92 


93 


94 Fetch Stage 


################################### 


95 


96 


# Does fetched instruction require a regid byte? 
bool need_regids = 

icode in { IRRMOVL, IOPL, IPUSHL, IPOPL, 

IIRMOVL, IRMMOVL, IMRMOVL ); 


97 


98 


99 


103 


101 


# Does fetched instruction require a constant word? 
bool need vale = 


102 


103 


icode in ( IIRMOVL, IKMMOVL, IMKMOVL, IJXX, ICALL } 


104 


bool instr valid 


105 


icode in 

{ INOP f IHALT, IRRMOVL, IIRMOVL, IRMMOVL, IMRMOVL 

IRET f IPUSHL, IPOPL 




106 


107 


IOFL f IJXX, ICAL ： 


108 
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109 Decode Stage ft###########################*##### 


110 


111 


## What register should be used as the A source 

int srcA = 1 


112 


113 


1 code in [ IRRMOVL, IRmOVL ； TOPL, IPUSHL } r rA 
icode in { IPOPL^ r^RET } i RESP; 

1 : RMOHE; # Don r t need register 


114 


115 


116 


1 } 


117 


118 


#S What register should be used 
ir.t srcB 


the B source? 


as 


119 




120 


icode in I IOPL, IRMMOVL, IMRMOVL } : rB; 
icode in ( IPUSHL, IPOPL, 工 CALL r IRET } : RESP 

RM03SSE ; 斗 Don 1 1 need register 


121 


122 


1 


4 

■ 


m 


124 


125 


## What register should be used as the E destination? 
int dstE =[ 


126 


127 


icode in { : ftMOVL, 1IRMOVL, IOPL} ; rB; 
icode in ( IPUSHL, IPOPL, 1CALL, IFET ) : RESP ； 

1 : RNONE; # Don 1 t need register 


128 


129 


130 


J; 


131 


132 ## What register should be used as the M destination? 

133 int dstM 




134 


icode in ( IMRMOVL, IPOPL } : rA; 
1 : RHONE; # Don 1 1 need register 


135 


136 


* 

,； 


137 


133 


坤 ## 妹杜扣抹 # 杜抹 ##4 伴计姑 Execute St^ye ###########^###### 


139 


140 


## Select input A to ALU 
inL aluA - [ 


141 


142 


icode in { TRRMOVL, 10PL } : valA ； 
icode in { 11RMOVL r IBMMOVL, IMRMOVL ) 
icode in ( ICALL, : PUEHL } ： -4 ； 
icode in { IRET, IPOPL } ； 4 ； 

# Other instructions don'i need ALU 


143 


valC 


144 


145 


146 


147 


14B 


149 


## Select input B to ALU 
int aluB =[ 


150 


151 


icode in ( IRMMOVL, IMRMOVL ； 工 OPL, ICALL, 

IPUSHL, IRET, IPOPL } : valB; 
icode in { IRRMOVL, IIRMOVL } : 0; 


152 


153 


796 


附录 A 


lb4 


# Other instructions don't need ALLT 


155 


156 


157 


## Set the ALU function 

in 1 ： alufun 


156 




159 


icode 

1 : ALUADD ； 


TOPL : iFan 


160 


161 


162 


163 


## Should the condition codes be updated? 
bool set cc 


164 


icode in ( TOpl }； 


165 


166 


Memory Stage ########*###### 


167 


168 


## Set read control signal 
bool mem read 


169 


icode in { IMRMOVL ； 工 POPL, TREP } - 


170 


171 


## Set write control signal 
bool mem write 


172 


icode in { IRMMOVL, IPUSHL, ICALL }； 




/ 


174 


## Select memory address 

int mem addr - [ 


175 


176 


icode in { IRMMOVL, IPUSHL, ICALL, IMRMOVL } : valK; 

icode in { 工 POPL, IRET } : valA ； 

# Other instructions don 1 L need address 


177 


178 


179 


180 


181 


## Select memory input data 
int mem data 


182 




183 


# Value from register 
icode in { IRMMOVL, IPUSHL } 
ft Return PC 
icode 


184 


valA; 


185 


136 


ICALL : valF; 

# Default: Don 1 t write anything 


187 


188 


code/a rch/seq/seq-¥-stdhcl 


AA PIPE 


code/arvh/pipe/pipe-stdhd 

# HCL Description of Control for Pipelined Y36 Processor 

# Copyright (C) Randal E. Bryant, David R r 0 1 Hallaron, 2002 

料 ################### 


# 


3 


4 
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fr#####*#################### 

ft C Include ; s - Don't alter these 
H ########## ^ ## ^ ##t# ### ########4## *!##### ####!* ######## 


# 


8 


10 


quote 1 tinclude cstdio.h>< 
quote p #include "isa.h ft p 
quote p #include n pipeline*h 
qiiote ^ #include ^stages . h 1- 1 
quote 1 tinclude 
quote 1 int fimjain ( int argc, char *argv [ ] ) ; p 

quote ' int main；int argc, char *argv[]) ^return sim_mairt(argc,argv )； } 


11 


12 


13 


14 


h 


sim 




15 


15 


17 


IB 


Declarations. Do not change/remove/delete any of these 


19 


21 


22 


##### Symbolic representation of Y36 Instruction Codes 

intsig INOP 
intsig IHALT 

intsig IRRMOVL 

intsig I1RMOVL 
intsig IRffidOVL 

intsig IMRMOVL 

i.ntsig I0PL 
intsig IJXX 
intsig ICAhL 
intsig IRET 
intsig TPUSHL 

intsig 1FOPL 


«######### 


23 


■ I_NOP ， 
_I HALT 


24 


r 


2b 


I_RRM0VL 
1 X^IRHOVL 

，工 —RMMOVL 

'1 J[RM0 VL 
1 I ALU' 


I 


26 


?:! 


28 


I 




30 


■ T_JTO 
_ IJZkLb ' 

_1_RET 1 
I PUSHL 


3) 


32 


33 


I 


h 


34 


T POPL 


3S 


36 


Symbolic representation of Y86 Registers referenced explicitly ###_# 

inisig RESP 

intsig 


37 


# Stack Pointer 
REG_N0NE p # Special valu^ indicating ir no reg: ster 


REG ESP 


I 


I 


38 


■ONE 


3S 


40 


##^#rf ALU Functions referenced explicitly 
intsia ALU ADD 


# ALU should add its arguments 


41 


A ADD 1 


42 


43 


##### Signals that can be referenced by control logic 


########### 


44 


45 


##*## Pipeline Register F 


46 


intsig K_predPC 


47 


# Predicted value of PC 


pc_curr->pc 


48 


49 


###H Intermediate Values in Fetch Stage 
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50 


mtyig f icode 1 i£ id next->icode l # Fetched instruction code 
intsig f_ifun 
intsig f_valC 
inteig f_valP 


51 


if id next->ifim 1 # Fetched instruction function 


52 


if id next->valc 1 # Constant daLd of £eLch^d in^Lraction 

if_id_next->valp 1 # Address of following instruction 


53 


54 


55 


4#### Pipeline Register D ########################^ 

# Instruction code 
林 rA field from instruction 
林 rB field from instruction 

# Tncremented PC 


56 


57 


intbig D icode 1 if id curr™>icode 
intsig D_rA 

intsig D_rB 

intsig D_valP 


■if—id 

■if id crurr->rb' 

_if_id_curr->valp 


58 


curr->ra 


59 


60 


61 


Decoce Stage ################## 


Intermediate Values 


62 


in 


63 


# grcA from decoded instruction 

# srcB from decoded insLruction 

# valA read from register file 

# valB read Erorr) register file 


inLsig d_srcA 
intsig d_srcB 

intsig d_rvalA 1 d_regva!Ld 

intsig d_rvalB 1 d_regvalb 


id_ex_next->srca r 
id ex..next->sr^b' 


64 


65 


p 


66 


67 


P 


68 


69 


##### Pipeline Register E 

# Instruction code 

# Instruction funcLion 

# Constant data 

# Source A register ID 

# Source A value 

# Source B register IU 

# Source B value 

# Destinaticn E register ID 

# Destination M register ID 


intaig E icode r id ex curr™>icode 
intsig E_ifun 
intsj g E_valC 

intsig E_srcA 

inLsig E_valA 
intsig E_srcB 

intsig E_va1B 
intsig E_dstE 
intsig F」_dstM 


70 


71 


->ifun I 

■ id_ex_curr->valc 
1 id_ex_curr->srca 

1 : Ld_ex_c:urr->vaJaL 

■ id_ex_curr->srcb 
id., ex. cijrr->valb 

curr->deste 1 
id ex cjrr-Miestm 1 


id 


ex curr 


72 


I 


73 


74 


75 


7 6 


77 


id 


I 


cx 


78 


79 


80 


ttHttfr Intermediate Values in Execute Stage 

intsig 1E ■ 

boolsig e_Bch p ex_mem_next->t:akebranch 


31 


ex mem nexL'>vale 


# valE generated by ALU 

# Am I about to branch? 


82 


83 


84 


林 ##tt# Pipeline Register M 

intsig icode 
intsig M_ifun 


##### 

林工 nstruction code 

# InsL ruction fund Lon 

# Source ； A value 

# DeslinaL ■丄 on E regisLer ID 

# ALU E value 

# Destination M register LD 

# Branch Taken flag 


35 


ex mem curr->icode 1 

->ifun 1 

intsig M_va1A 'ex_mem_cjrr->vala' 
intsig M_csth ； 

intsig M_valE 1 ex_mem_curr->vale 


86 


ex mem curr 


87 


88 


ex mem cjrr->deste 


I 


89 


90 


intsig M^cstM p ex_mem_carr->destm p 
boolsig iyL_Bch 1 ex_mem_curr->takebranch 1 


91 


92 


93 


##### Intermediate Values 
intsig m_va 1M 1 mem_v T b_next->valm ’ 


Kemory Stage ########################## 

# valM generated hy memory 


m 


94 
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95 


95 


##### Pipeline Register W 

4 Instruction code 
i Destiaation E register ID 
I ALU E value 

# Destination M register ID 

# Memory M value 


97 


intRig W_icode 1 ->icode 

W_6atE 1 mym_wb_curr->deste _ 
intsig W_valE 

ir.tsig W 一 d&tM , fnem_wb_curr->destm 

iritaig W valM 1 mem ~wb curr->valm h 


98 


99 


mem wb curr->vale 


1 


ino 


01 


102 


103 ^*##^##^^^^###^####^###############?############^####^##### 

t Control Signa1 Definitions, # 

105 


104 


106 


107 


retch Stage ###i(######################4# 


108 


109 ## What address should instruction be fetched at 

110 int f_pc 二 [ 


111 


ft Mispredicted branch. Fateh at incremented PC 

IJXX [M Bch 


112 


M icode 


M valA? 




■ 

■ 


113 


杜 Completion of RET instruction 

W icode 


114 


IRET r W“valM; 

# Default ^ Use predicted value of 
1 : F 一 p red PC; 


115 


PC 


]16 


117 


118 


119 


# Does fetched instruct 丄 ori require a regid byte? 
bool need_regid^ - 

£_icode in { IRRMOVL, XQ?i tf IPUSHL, IPOPL 

TIRMQVLp 1RMMOVL, IMUMOVL }; 


120 


121 


1?2 


123 


124 


什 Does fetched instruct ion require a constant word? 
boo] need vale 二 


125 


6 


E_icode in { IiRJyiOVL , 工 RMMOVL, IMRMOVL, UXX f I CALL }; 


127 


123 


bool inatr val id 


icode in 

(INOP f 1HALT, IRRMOVL, 1 1MOVL, IRMMOVL, IMRMOVL 

iOPL, IJXX, ICALL, IRET, IPUSHL, TPCPL }; 


129 


130 


131 


132 


非 Predict next value of PC 

i nt new_F_predPC =[ 


134 


f_icode ir { IJXX, ICALL } 
1 : £_valP? 


f_vaIC; 


135 


136 


]； 


13^ 


13S 


J39 


############!*### Decode Stage 
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140 


141 


142 


H What register should be used as the A source? 
int new E srcA = 


143 


144 


D_icode in { TRRMOVL, IHMMOVL, IOPL, IPUSHL } 
D_icode in t IPOPi 
1 : RNOHE; # Eon't need register 


D rA; 


145 


1RET } : RESP 


146 


147 


1; 


148 


149 


## What register should be used 

int new E_srcB =[ 


the B source? 


as 


150 


151 


D_icode in { IOPL, IRMMOVL, IMRMOVL } 

D_icode in { IPUSHL, IPOPL, I CALL, IRET ] x RESP; 

1 i RNONE; # Don 1 1 need register 


D_rE ； 


152 


153 


154 


155 


156 


## vihat register should be used as the E destination? 
int new E dstz 


157 




158 


Decode in { 二 ERNOVL, IIRMCVL, IOPL) : D_rB ； 
Decode in { IPUSHL, IPOPL, ICALL, IRET } : 

RNONE ； # Don't need register 


15S 


RESP 


160 


■ 

■ 


161 h 


162 


163 


## What register should be used 

int new E dstM - T 
D_icode in { IMRHOVL, IPOPL } : D_rA ； 

1 : RHONE; # Don^ t need register 


the M destination? 


as 


164 


165 


166 


167 


168 


169 


林 # What should be the A value? 


170 


## Forward into decode stage for valA 
int new E valA =[ 

D_icode 

d_srcA 

d_._srcA 二 = M. dstM 


171 


172 


{ I CALL, IJXX } 

E_dstE : e_valE; # Forward valE from execute 

m_valM ； # Forward valM from memory 


D_valP; # Use incremented PC 


in 


173 




174 


■ 

■ 


17^ 


d_srcA == M_dstE : M_valE; # Forward val E from ineniory 
d_srcA == W 一 dstM ； W_valM; # Forward valM from write back 

d srcA 


176 


177 


W_va 1E ； # Forward valE from write bac/i 
d_rvalA ； # Use value read from register tile 


W dstE 




p 

■ 


178 


179 




180 


181 


int 


E 


valB 


new 




182 


d_srcB 

d srcB 
11 

d srcB 


E_dstE 

M_dstM 

M dstE 


e_valE; # Forward va.lE from execute 
valM ； # Forward valM from memory 
i M_valE ； # Forward valE from memory 




■ 

■ 


183 


: m 




184 
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W_valM; # Forward val^l from write back 
W_valE; # Forward valE from write back 
1 : d_rvalR; # Use value read from register file 


185 


d srcB 


W dstM 


* 

w 




186 


d srcB -- W dstE 


* 

■ 


187 


188 


]; 


189 


190 


Execute Stage 


191 


192 


#件 Select input A to hh\J 
i.nt aluA - [ 


193 


194 


E_icode in ( IRRMOVL, IOPL } 

E^icode in { IIRMOVL 
Encode in { ICALL, IPUSHL ) : 

£_icode in [ IRET, IPOPL } 

# Other instructions don 1 1 need ALU 


E_valAf 

: RMMOVL, IMRMOVL ) : E 一 valC; 


195 


196 


1 . 9 ^ 


4; 


19 H 


199 


■ 

p 

. r 


200 


201 


## Select: input B to ALU 
int aluB =[ 


202 


203 


E^icode In { IRMMOVL, IMRMOVL, ICPL, ICALL, 

IPUSHL, IRET, IPOPL } : E_valB; 

E^icode in { IRRMOVL, umoVh } ： 0; 

# Other instructions dcn_L need ALU 


204 


D5 


236 


20 


203 


209 


## Set the ALU function 

irx al iif un - f 


210 


211 


E_icode -- 
1 : ALUADD; 


I3PI. : E_ifun; 


212 


4 


215 


## Should the condition codes be updated? 

K icode 


216 


bool cc 


：OPL 




217 


218 


219 


Memory Stage 


220 


221 


## Select memory address 

in: mem 一 dddr 二 ( 

M_icode in i IRNMOVL 


222 


223 


TPUEI1L, ICALL, : TiyRMOVL ) : M_valE; 
M_icode in { IPOPL, IRET } : M_valA ； 

# Other instructions don 1 1 need address 


224 


225 
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226 


■ 

h 

^ f 


227 


228 


## Set read control signal 
bool mem read 


K_icode in { IMRMOVL, IPOPL ； 工 RET }; 


229 


230 


231 


## Set write control signal 
bool mem write 


232 


M_icode in { IRKMOVL, IPUSHL, ICALL ); 


233 


234 


235 


################ Pipeline Register Control 


236 


237 


伴 Should I stall or inject 

# At most one of these can be true. 

bool t 二 bubble = 0 ; 

bool F stall = 


bubble into Pipeline Register K? 


a 


22 S 


239 


24C 


241 


# Conditions for a load/use hazard 

E_icode in t TMRMOVIr, IPOPL } 

E_dstM in { d_srcA f d_srcB } I 

# Stalling at fetch while ret passes through pipeline 
IRET in { D—icode, E_icode, M_icode }; 


24 


243 


244 


245 


246 


247 # Should I stall 

248 # At most 

249 bool D stall 


inject: a bubble into Pipeline Register D? 

of these can be Lrus. 


or 


one 


2S0 


¥ Condi Lions for 
E_icode 


load/use hazard 

{ IMRMOVL, IP3PL ) && 
E_dstM in { d_srcA f d_srcB }； 


a 


25 ： 


i n 


25 


253 


254 


255 


# Mispredicted branch 

IJXK k&i ! e_Bch) I I 

# Stalling at fetch while ret passes through pi peline 
: RET in i D_icode, K^icode, M_icode )； 


2h6 


E icode 


257 


253 


259 


26D # Should I stall 

# At most one of these can be true. 

262 bool E_stall - 0 ； 

263 bool E bubble = 


inject a bubble into Pipeline Register R? 


or 


261 


264 


i Mispredicted branch 

(E^icode == TJXX && .ejeh} M 
年 Conditions for a load/use hazard 


26 ) 


266 
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267 


E_icode in ( 工 MRMOVL, IPO?L } && 

E_dstM in { d_^rcA, d_srcB}; 


268 


269 


bubble into Pipeline Register M? 

be 匕 rue. 


tt Should -丄 etall or inject 

射 At most one of these 

bool M ytall 


270 


a 


?71 


can 


272 


0; 


273 bool M bubble 


0; 


code/a rch/pipe/pipe - Sid. hcl 
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错误处理 


B.l Unix 系统中的错误处理 
B.2 错误处理包装函数 

B-3 csapp.h 头文件 

csapp.c 源文件 
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809 


B.4 
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5CE 
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程序员拘该总是检査系统级阑数返回的错误代码 6 有许多细微方式导致错误的出现，只有使用 
内桉能够提供给我们的状态佶息才能理解为什么有这忭的错误。不幸的是，稈序员往往不愿意进行 
错误检杳，因为这使他们的代码变得很庞大，将行代码变成一个多行的条件语句 . 错误检查也是 
很令人迷惑的，因为不同的阑数表小_+间方由_的错误。 

在编写本书时，我们面临类似的|4题。•方面 T 我们希望我们的代码示例阅读起来简洁简单 n 
另一方 fih 我们乂不希望给学4:们个错误的印象，以为吋以省略错误检查。为/解决这些问题， 

我们采用了 一种基于错误处理包装函数 （error-handling wrapper) 的方法，这是由 W, Richard Stevens 

在他的 N 络编程教材 [8〗] 中最先提出的。 

其思想是，给定某个基本的系统级函数 foo , 我们定义一个有相同参数、只不过开头字母人写 
了的包装函数 Foo 。 包装函数调用基本函数，并检查错误 。 如果包装函数发现了错误，那么它就打 
印-条信息，并终 ll : 进程。否则， 它返冋到调用者。注意，如果没有错误 f 包装哟数的行为弓基本 

函数宂今一样。换句话说，如果枵序使用包装函数运行正确，那么我们把每个包装函数的 第-个 字 
母小弓并重新编译，也能正确远行。 

包装函数被封装在个源文件 （ csappx ) 中，这个文件被编译和链接到每个程序中， 一 个独立 
的头文件 (csapp.h) 中包含这些包装涵数的函数原型。 

本附录给出 : T 一个关于 Unix 系统 1 M、N 种类的错误处理的指南，还给出了不同风格的错误处理 
包装闲数的小例。为了方便参考，我们还包括了 csapp.h 和 csappx 文件的完艳源代码。 


B.1 Unix 系统中的错误处理 

本书中我们遇到的系统级函数调用使用 二种小 间风格的返回 错误： Unix 风格的. Posix 风格的 
和 DNS A 格的。 

Unix 风格的错误处理 

像 fork 和 wait 这样 Unix 争期开发出来的函数（以及 一 些较老的 Posix 函数）的阑数返回值既 

包括错误代码，也包括冇用的结粜。例如，气 Unix K 格的 wait 函数遇到个错误〔例如没有了进 

程要回收)，它就返 M — 1,并将全局变* ermo 设置为指明错误原因的错误代码 D 如果 wail 成功完 

成，那么它就返回冇用的结果，也就是 [ iil 收的子进稈的 PID 。 Unix 风格的错误处理代码通常兑有以 
下形式 r 


1 


i f ( (pid = wait (NULL) ) v 0)( 

fprintf(stderr 
exit(0); 


wait error ： %s\n M , sLrerror(errno)1 


4 


strerror 函数返回見个 ermo 值的文 A 描述。 


Pusix 风 格的错误处理 

许多较新的 Posix 函数，例如 Pthread 承数， K 用返 [ Hi 值宋表明成功⑴）或#矢败（非0)。任 
何有用的结果都返回在通过引用传递进来的凼数参 数中。 我们称这种力法为 Posix A 格的错误处理 & 
例如， Posix 风格的 pth r ead _ create 函数用它的返回值来表明成功或#失败，而通过1用将新创建的 



if ( (reLcode = pthread_create (&t：id, MULL r thread, NULL) } 

Eprintf(stderr r M pthread_create error : %s\n ri ^ strerror(retcode ；); 

exit ； 0); 


0) { 


DNS 风格的错误处理 

gelhostbyname 和 gethostbyaddr 函数检索 DNS (域名系统）主机条 H ,它们有另外 ■■种 返回错 
误的方法。这些函数在失败时返回 NULL 指针，并设1全局变量 hjTTm DNS 风格的错误处埕通 
常具 冇以下 形式： 


if Up = gelhobLbyname (name) ) -= NULL)( 

fprintf (stderr, h gethosLbyn-ame erroifi %^\ru n P hstrerror (h_ermo)) 
exiL(0); 


4 


错误报告函数小结 

员穿 本书，我们使用下列错误报告函数来包容不同的错误处理风格 ; 


线程的 ID (有用的结果）返回放在它的第…个参数中。 Posix 风格的错误处理代码通常 M 有 以卜形 


iH, 如它们的名字表明的那杆■， unix^rror、pos〖ierror 和 dn&^rror 函数报告 Unix 风格的错误、 
Posix 风格的错误和 DNS 风格的错误，然后终 app_ eT ror 函数是为了方便报告应甲错误 4 它只是 
简笮地打印它的输入 t 然后终止。 RiB.l 賊#丫这些错误报冉函数的代 


code/srcA'sapp.c 


void unix_error < char *msg) unk-style error */ 


£print[(stderr 
exi t (0 }; 


%&: is\n 


n 


msg, strerror(errno)) 




4 


5 


6 


7 


void 


posix_error (int code ； char ) /* ptisix-styleerror + / 


B 


fpr3nt£ (stderr, "%sr %s\n 

exit (0); 


pp 


msg, strerror(code ))； 


I 


L 0 


11 


12 


13 void dns_erior(chai: *nisg ； / + dns-style error 

14 I 


ftinclude "csapp^h 


void unix_errorichar *msg); 

void f>os ： L>i_error ( int code f char *msg) : 

void dns_error(char *msg )； 

void ^pp_error(char *msg )； 


返回：无 i 


错误处理 
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12 3 4 



808 


15 


fprintf(stderr, n %s : DNS 
exit ( 0) } 


% d \ n ” f msg ^ h _$ rrno ) : 


error 


16 


17 


18 


19 void app_error ( c]har *^ r sg ) /* application error + / 


20 


21 


fprintf\stderr 
exit(0 )； 


%s\n u , msg); 


22 


23 


code / src / csapp , c 


B.l 错误报告函数 


code/xrc/csapp + c 


pid_t Wait, (int *Ktatus) 


pddj: pici? 


4 


if ((pid = waiL(status)) < 0 J 

unix _ error ( JP Wait error "); 

return pid ; 


6 


code/src/csapp. c 


B+2 Unix 风格的 wai〗 函数的包装函数 


B .2 错误处理包装函数 

下面是一些不同错误处理包装函数的小例： 

Unix 风格的错误处理包装由数 

图 B.2M 示了 Unix 风格的 wait 函数的包装函数。如果 wait 返回一个错误，包装函数打印一条 
消息，然后退出。否则，它向调用者返回一个 PID。 

图 E, 3展示了 Unix 风格的 kill 函数的包装函数 j 主意，这个凼数同 wait 不冋，成功时返回 void。 


code/s rc/csapp，c 


1 


void Kill ( pid_t pid , int signum 


irtL ic 


4 


kill ( pid , signum )) 

("Kill erroi N ) 


0) 


< 


unix error 


code / src / csapp . c 


B+3 Unix 风格的 kill 函数的包装函数 



错误处理 


809 


Posix 风格的错误处理包装由数 

图 Bi 4 展示了 Posix 风格的 pthiead ^ detach 函数的包装函数 & 同人多数 Posix 风格的函数 - 祥 
它的错误返回码中不会包含有用的结果，所以成功时，包装函数返回 void 。 


code/src/csapp^ c 


void Pthread_detach(pthread_t tidi { 

int rc; 


2 


if (ire = pt.tirea6_det.ach (Lid}) t = 0) 

Pthread detach error 11 ); 


posax_error(rc 


code/src/csapp. c 


B -4 Posix 风格的 pthread^detach 函数的包装函数 


DNS 风格的错误处理包装函数 

图 B +5 展示 f DNS 风格的 gethostbyname 函数的包装函数。 


- code/s rc/csapp. c 


struct hostent ^Gethostbyname(const char *name) 


2 


struct lio&t^nt *p 


4 


if ( (p 二 gethostbyname (name) ) =; W1JLL] 

dns_error ("Gethost^name error"); 
return p; 


—~ - code/s rc/csapp 


c 


® B .5 DNS 风格的 gethostbyname 函数的包装函数 


B .3 esapp.h 头文件 


code/include/csapp.h 


tifndef _CSAPP_H 

^define CSAPP H 


4 


ttinclude <sLdio .h> 

^include ib-h> 

^include 


<imisrd, h> 

#include <sLring.h> 

^include retype.h> 

#include <aetjmp.h> 

10 rfinclude <signal .h> 

11 #include <sys/rime.h> 

12 #include /types,h> 

13 #include <sys/vrait -h> 


1 


8 



810 


14 #include <sys/stat.h> 

1 #include <fcnt 丄， h> 

16 #include <&vs/mman.h> 

17 ttinclude 

18 tfinclude <maLh.h> 

#include <pthread.h> 

20 #Include <semaphore.h> 

2] Jfinclude <sys/socket *h> 

22 ttinclude <netdb,h> 

#include <netinet / in.h> 

24 #:nclude <arpa/inet,h> 


■ h> 


<errno 


19 


23 


25 


26 


27 /* Default file permissions are DEF_MODE & DEF.UMASK */ 

28 #definc DEF„MOCE S_TRUSR S S_IWUSRIS_IRGRP[S_IWGHPI3_IRO?HIS_IW0TH 

29 #define DEF UMASK 3 IV/GRPI S IWOTH 


30 


产 Simplifies calls to bind(), connect{), and accept) */ 

32 typedef struct sockaddr SA ； 


31 


33 


/* Persistent state for the robust I/O (Rio) package * / 

35 #de£ine RIO_BUt'SIZE 8:92 

36 typedef struct ( 

int r:o_fd; 

±nt rio_cnt ； 
char + rio_bufptr ； 


34 


37 


I* descriptor for this internal buf 
unread bytes in internal buf 
/* next unread byte in internal buf*/ 

char ri o_buf [RIO_3UFSIZE] ； /* internal buffer V 


38 


39 


40 


} rio_t ； 


41 


42 


43 /* External variables */ 


44 extern int h_errno ； 

45 extern char 


/* defined by BIND for DNS errors */ 
/* defined by libc */ 




environ ； 


46 


47 /* Misc constants */ 

48 ttdef ne MAXLINE 8192 

49 #definc MAXBUF 8192 

50 #def.ne LISTEKQ 1.024 


line length */ 
f* max I/O buffer size */ 

I* second argument to listen() */ 


f* max text 


51 


/* Our own error-handling functions */ 

error (cha^r *msg); 
error(inn code, char *msg) 

char ^ msg )； 

char *msg); 


52 


53 void 

54 void pot?ix_ 

55 void dns 

56 void app_error 


umx 


error 




/* Process control wrappers * / 


53 



错误处理 


ail 


59 pid_t Fork(void ); 

60 void Execve (ccrisL char * filename, ch^r * const argvl ] , char *const envp []) 

61 pid_t Wait(ini *£tatus) ； 

62 pid_t Waitp 丄 d : jid, int *iptr P int options); 

63 void Kill(pid_t pid f int signum )； 

61 unsigried int SI eep (unsigned int secs )； 

65 void Pause(void) ； 

65 unsigned int Alsrm(lin^ignpd in 二 seconds) ； 

67 void Setpgid(pid_t pid, pid_t pgid); 

63 pid_L Getpgrpi )； 


严 Signal wrappers */ 

typcdef void Standier_t ( int); 

72 handler—t: ^Signal (irit signum, handler_L *handler )； 

void Sigprocmask(int how^ const sigset„t *set r si ^oldseL); 
7 4 void Sigernptyset [sigset_t *seL); 

75 void SigEillset (sigset__t *se 匕）？ 

76 void Sigaddset (sigset^t ' nt sig.num); 

77 void Sigdclset(s 丄 gset_t + set P int signum )； 

L^t Sigismember (const sigset_L *set ； int signuin); 


70 


71 


73 


78 


79 


80 


/* Unix I/O wrappers */ 

int Open(const char ^pathname, int flags, mode_t mode); 
ssize_t Read(int Ed, void + buE ? size L count); 


1 


82 


83 


ssize_t Wr;te (int, fd, const void *buf P s: ze_t count) 
tK off_L Lseek (int fildey, off_t offset ； inr whence); 

void Closeiint fd); 

86 int Select (inc 


8 b 


fd_set *readfds, fd_get *writefds ; fd_set *exceptfds 
strucc timeval *timeouL); 


n 


87 


BS int Dup2 {int fdl, in[ £d2) 

85 void Stat [const char *fi 
9C void Fscat(int fd, struct stat *buf) ； 


m 

P 


sLriict stat *buf 


ename 


91 


9 /* Memor) mapping wrappers */ 

33 void void *addr, si.ze_t iei\ t int prot P 

94 void Munmapfvoici *start, size_L length )； 


inL flags, int £d, of£_L offset} 


95 


96 产 Standard I/O wrappers */ 

97 void Fclose(FILE *fp )； 

98 FILE *Fdopen(int fd, const char *type )； 

99 ch^r *FgeL^ (ch^ir + pLr f int n r FILE * St ream) 

100 FILE *Fopen(const char *filename 

101 void Fputs(const chat *ptr r FTLE Stream); 

t PTedd(void *ptr 

103 void Fwrite (const void 


const, char *mode) : 


102 


size 


si ze_t nmernb, FILE *stredm); 
pti, si 2 e_t size, si^e_t nmemb, FILE 十 stream) 


size t size 


812 


104 


105 Dynamic storage allocation wrappers 

106 void ^Malice(size_t size); 

107 *Realloc(void ^per ； size_L size ]； 

103 void *Calloc(size_t nmemb ； aize_t size )； 
109 void Free(void *ptr); 


110 


111 I 电 Sockets interface wrappers 4 / 

112 int Socket(int domain P int type, int protocol )； 

113 void Set sockopt (int s P int level, int optndme, const void *optval r int optlen )； 

114 void Bind (int sockfd, strucL ycckac3dr *my_addr f int addrlert )； 

115 void Lister, (inL 

116 int Accept (int 

117 void Connect (int sockfd, struct so [: kaddr 


int backlog); 

struct soc"kaddr *addr f int *dddrlen )； 




s 


addr, int addrlen); 


serv 


118 


119 /* DNS wrappers + / 

120 struct hostent *"Gethostbyname (const char *name); 

121 sL rue t hosLent *GeLhoytbyaddr(const char *addr ； int len, int type}; 


122 


1 23 /* Ptbreads thread cofitrol wrappers */ 

124 void Pthread_create(pthread_t *tidp, pthread_attr_t rp 

(*roatine){void *), void 

thread return )； 


void 

126 void Ptnread_join(pthread_t tid f void 

127 void Ptnread_cancel(pthread_t tid )； 

128 void Pthread_detach(pthread_t tid} ? 

129 void Ptliread_exit (void + retval); 

130 pthread_t Pthread_self(void !； 

131 void Pthreac3_once(pthread_once_t *once_control ； void unction )[)]; 


125 


argp ,； 


132 


133 /* POSIX semaphore wrappers 

134 void Seivi_init (sem—t int pshared, unsigned int value!; 

135 void P ^sem); 

136 void V I ^em_c *sein )； 


137 


138 /* Rio (Robust I/O) package 〜 

L rio_readn(int fd, void *usrbuf, .^ize_t n )； 
t rio_writen(int fd, void *usrbuf, ze_t n); 
void ri^_readinitb(rio_t *rp, int fd); 

142 ssize_t rio_readni) (rio_t void *usrbuf x si 2 e_t ri )； 

143 ssize_t rio_readliy\eb {rio_L * rp P void *u^rbuf , size」: ； 


139 


ssj ze 


140 


asize 


141 


144 


14b /* Wrappers for Rio package */ 

146 ssize_L Rio_readn(int fd, void *usrbuf 


^ize_t n ); 

147 void Rio_writen[int td t void *usrbuf, size 一 t n )； 

148 void Rio_readinito(rio_t *rp, int fd )； 
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149 ssize_t Kio_readnb(rio_t *rp r void *usrbuf f sise_t n) 

150 ssize_t RL o_readlineb(rio_t 


void *usrbu£, size_t maxlen )； 


* 


rp 


151 


152 /* Qient/sefver helper functions *f 

153 int open_o1ient£d(char + hostname, int portno) 

154 int open_listenfd(int portno]; 


155 


156 /* Wrappers for client/server helper fiinctions */ 

157 int Open_clientfd(char *ho&tname, int pert); 

158 int Open_listenfd(int port f; 


159 


160 #endif / 


★ 


CSAPP H 


4c 


/ 


code/includefcsapp + h 


B.4 csapp.c 源文件 


code/src/csapp.c 


#include "esapp.h 


/ 本+申+伞+ 申** +*»+**♦*** 伞**尜*本* 

^ Error-handling ftmetions 

丰氺丰和+氺氺电芈+氺*幸 +*；(! + ** 伞* ***/ 

void unix_error (char *msg) f* qni^-style eiror *f 


3 


4 


fprintf(stderr 
exit(0); 


%s ； %s\n M f msg, strerror(errno )} 


9 


10 


11 


12 void pcsix_error(int code, char ^msg) / + posix-styleerror*/ 


13 


14 


fprintf fstderr 
exit{0}; 


Isi %s\n n I msg, strerror(codeI) 


15 


16 } 


17 


18 void dns 一 error (char T msg) /* dns-styleerror */ 


19 


20 


fprintf (stderr, 11 is : DNS error %d\n 
exit(0); 


msg^ h—errno); 


T 1 




2： 


22 


23 


24 


app—error (char *msg) /* application erroi */ 


voic 


25 


26 


fprintf(stderr, w %s\n", msg) 

exit(0 ); 


t 


27 
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28 ) 


29 


30 申丰私丰丰本+氺♦丰+申♦参丰 幸 举本丰本丰♦电+芈， _ 蟑申申本 ++ 申 

Wrappers for Unix process control ftmetio 加 






砵* 


32 


33 


34 pid_t Fork (void) 


35 


pid_L pid 


36 


37 


if {(pid - fork。）< 0) 

unix_error("Fork 

pid? 


38 


39 


error 


40 


return 


41 


42 


43 void Execve (const char *f ilename^ char *const argv[] f char *const envp []) 


44 


45 


i f (e>tecve (filenarne, argv, envp) < 0 ] 

unix_error (^Execve error ,p ); 


46 


47 } 


48 


49 pid_t Wait(int ^status) 


50 


51 


pid„t pid 


52 


b3 


if ((pid = wait(status)} < 0) 

unix—error<"Wait error "}； 
pid ； 


54 


55 


return 


S6 } 


57 


58 pid_t waitpid(pid_t pid, int *iptr r int options) 

59 ( 


60 


pid_t retpid 


61 


62 


if ( ；retpid - waitpid(pid, iptr P options) 

unix_error("Waitpid 
(retpid); 


0 ) 


< 


63 


error 


64 


return 


65 




67 void Kill [pid_t pid, int. signum) 


68 


69 


int rc 


70 


71 


if ( (i：c - kill (pid, signum)) 


0) 


< 


72 


vrnix error 


error 



错误处理 


875 


73 


74 


75 void Pause (} 


76 


77 


(void)pause(}; 
return ； 


78 


79 


80 


81 unsigned int Sleep(unsigned int secs) 


82 


83 


unsigned int 


rc; 


84 


85 


if ((rc = sleep [ aecs)) 

(Sleep 


Oj 


< 


B6 


urux 一 errcr 

return rc; 


error 


8 


88 


89 


90 unsigned int Alarm(unsigned int seconds) { 

return alarm[seconds )； 


91 


92 


93 


94 void Setpgid(pid_t pid f pid_t pgid) { 

int rc ； 


95 


96 


97 


if ((rc = setpgidtpid, pgid)) < 

unix_error("Setpgid error M )； 


0; 


98 


99 


return; 


100 ) 


101 


102 pid_t Getpgrp(void) { 

return getpgrpt )； 


103 


104 } 


105 
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109 

113 handler_t *Signal(int signum t handler*handler) 
111 { 

112 


107 


struct sigaction action, oldLaction; 


113 


114 


action*£ia_handler = handler 


115 


116 


ac l: ion ， sa_f lags = SA_RESTART; /* restart syscalls if possible */ 


117 



附录 


816 


if (sigaction(signunip Saction^ &old_action) 

urtix_error ( N Signal error ")； 

reLurn (old_action*sa_h^ndler]; 


118 


0) 


< 


119 


120 


121 } 


122 


123 void Sigprocmaskfint how, const sigset_t *set, sigset_t *oldset) 

124 ( 


125 


if (sigprccraask(how, set , oldset) 

unix_error("Sigprocmask error - ) 


C) 


< 


126 


127 


return; 


128 } 


129 


130 void Sigemptyset{sigset_t *set) 

131 f 


132 


if (sigemptyset (set) 

Linix_error (^Sigemptyset error") 


0) 


< 


133 


134 


return 


135 } 


136 


137 void Sigfillset(sigset_t *set) 

138 { 


if (sigfillser ： (aet) 

unix_error("Sigfillset error H ) 


139 


01 


< 


140 


141 


return^ 


142 } 


143 


144 void Sigaddset(sigset_t *set, int signum) 

145 { 


146 


i£ (sigaddset(set, signum) 

unix_error( ■'Sigaddset error 1 ")； 


0 } 




147 


148 


return 


149 } 


150 


151 void Sigdelset(sigset_t *set, int signum) 

152 { 


153 


if [sigdelset(set^ signum) 

unix_error("Sigdelset 


0) 


< 


154 


error 


155 


return; 


156 ) 


157 


158 int Sigismember[const sigset_t *set f int signum) 

159 ( 


160 


int rc; 
if (frc 


161 


sigismember(set, signum)) 
unix_error("Sigismember error") 


0) 




< 


162 



错误处理 
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163 


return rc 


164 } 


165 


166 
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168 


170 


171 int Open(const char *pathname, int flags r mode_t mode) 

172 { 


173 


int rc 


174 


175 


if { Uc 


open(pathname, flags, mode)) 

(^Open 


0) 


< 




176 


unlx error 


error 


177 


return rc 


178 } 


179 


180 ^size_t Read(int td, void *buf, size_t count) 

181 { 


182 


ssize _t rc 


183 


184 


read[fd, buf, count)) 

ULnix_error { lp Read error ^； 

return rc; 


if ((rc 


0) 


< 




185 


186 


187 } 


188 


189 


t Write(int fc r const vcid *bu£, size_t count) 


ssize 


190 { 


191 


ssize t rc ； 


192 


193 


if f(rc 二 write(fd f buf P count)) 

unix_error("Write error"); 

return rc; 


Cl 


< 


194 


195 


196 } 


197 


198 off_t Lseek(int fildes, off_t offset, int whence) 

199 { 


200 


0££_t 3TC ； 


201 


202 


if { [rc ^ lseek(fildes H offset, whence)) 

("Lseek 


0) 


< 


203 


umx error 


error 


204 


return rc ； 


235 ) 


206 


207 void Close{int £d) 




818 


208 f 


ini rc ； 


205 


21C 


211 


if { (rc = close(fd)) 

unix_error( ” Close 


0 ) 


< 


212 


error 


213 } 


214 


215 mt Select tint 


fd_set *readfds f fd_set *writefds 

fd_sec *exceptfds f struct timeval } 


n 


p 


216 


21 


218 


mt rc; 


219 


if ((rc 


select(n, readtds P writefds, exceptfds, timeout!) < 0) 
unix_error ( IF Select 


221 


error 


22 


return rc 


225 } 


225 int Dup2(int fdl, int fd2) 

226 { 


22 


mt rc 


228 


229 


]f "rc = dup2(fdU Ed2) } 

unix_error( M Dup2 

return rc ； 


0) 


< 


230 


error 


231 


23 


233 


234 


void SLat{const char * filename, struct stat *buf) 


235 ( 


236 


if (stat < filename, buf } 

("Stat 


0) 




；37 


; 


imix error 


error 


?38 } 


239 


240 


void Fsia 匕 （int fd, struct stat *buf) 


24 ： { 


242 


if (fstaL(fd, buf) 

unix_error[ h FstaL 


0} 


< 


243 


error 


244 } 


245 


24 ：^ /t^^^^^^?)?********^***********^++++***** 

Wrappers for memory mapping functions 

电电孝中丰咩♦半丰耷丰幸 f 其丰 

249 void *Mmp{void + acldr, size_L len f intprct, int flags, int fd P off J: of£set_) 

250 ( 


24^ 


4= 


248 


# 氺; it 本本氺丰氺木本*木* 术* 氺才本氺韦其 


25 : 


void *ptr ； 


252 



错误处理 


819 


253 


if ( (ptr =： mmap(addr, len, prot, flags ^ ld f offset)) 二二 ((void*) -J )) 

unix_error( n mmap error ^}； 

return(ptr): 


254 


255 


256 } 

257 

258 void Munmap(void *start f size_l length) 

259 ( 


260 


if (munmap (start f length) 

unix_error ("munniap error ，.）； 


0) 


< 


261 


262 } 

263 
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265 


267 


268 void ^ Malloc ( size_t size } 

269 ( 


270 


* 


VOIG 


P ； 


271 


if ( (p = malloc (size)) 

unix_error ( r Malloc error - ')； 
return p ； 


212 


NULL) 




273 


274 


27 b } 


276 


277 void *Realloc{void *ptr r sise^c size) 

278 { 


279 


void *p 


230 


281 


if ( (p = realloc (ptr f size)) 

unix 一 error( n Realloc 
return p; 


KULL) 




232 


error 


233 


284 } 

285 

286 void ★Calloc (sizG_t: nrr L emb, size_L size) 

287 { 


288 


void *o ； 


289 


290 


if ((p - cal 丄 oc(nmemb f size)) NULL! 

unix 一 error ( n C^l 


291 


oc error 


2 


return p 


2 S 3 } 


294 


295 void Free [void + p^r) 

296 { 


297 


free(ptr ); 


附录 


520 


298 } 


299 
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伞 


301 


303 void Fclose(FILE *fp) 

304 { 


305 


i£ (fclose(fp) t= 0) 

unix_error("Fclose 


306 


error 


307 } 


308 


309 FILE *Fdopen(int fd, const char *type) 

310 { 


311 


FILE *fp 


312 


313 


if ；(fp = fdopenffd ； type)) -= NULL} 

unix__error (" Fdopen error 11 ); 


314 


315 


315 


return fp ； 


317 } 


318 


319 char + Fgets(char *ptr, int n, FILE * 5 tream) 

320 ( 


321 


char *rptr ； 


322 


323 


if i ( (rptr = igets(ptr, n, stream)) == NULL) && terror(stream)) 

a PP_ Gri ： or( “Fgets error 11 ); 


324 


325 


326 


return rptr ； 


327 } 


328 


329 FILE *Fopen(const char *filename, const char *niode) 

330 { 


331 


FILE *fp 


332 


333 


if l(fp = f open [filename, model] 

unix_error ( ,p Fopen 


NULL) 


■ jj — _ 


334 


error 


335 


336 


return fp ； 


337 } 


33B 


339 void Fputs(const char *ptr, FILE ^stream) 

340 { 


341 


l£ (fputs{ptr r stream) == EOF) 

unix_error("Fputs 


342 


error 




错误处理 


821 


343 } 


344 


345 size_t Fread(void *ptr f size_t size, size_t nmemb r FILE ^stream) 
J46 { 

347 


size t n ； 


348 


if ( ( (n =： fread(ptr, size, nmeinb, stream) ) < nmemb) && ferror (stream)) 

unix_errcr(^Fread 

return n ； 


349 


350 


error 


351 


352 


353 


354 void Fv/rite (const vcid + ptr, si size 

355 { 

356 


t nmemb f FILE *stream) 


size 


f 


if (fwrite (ptr ； size, nmeiTib^ stream) 

unix_error ( n Fwrite error” ： 


nmemb) 


< 


357 


358 ) 


359 


360 


352 * Sockets interface wrappers 


364 


365 int Socket (int domain, int type ； int protocol) 

366 { 


367 


mt rc 


368 


369 


i£ ((rc = socket(domain, type, protocol)) 〈 0) 

( n Socket 


370 


unix_error 
return rc ： 


error 


374 void Setsoc^opt (int s, int levels int optr-anie r const void *optval ( int optlen) 

375 t 


315 


int rc 


377 


378 


if ((rc - setsockopt(s, level, optname, opt va1 f optlen)) < 0) 

imix_error("Setsockopt error"); 


379 


380 : 


331 


382 void Bind(int sockfd, struct sockaddr *my_addr, int addrlen) 

383 ( 


384 


int rc; 


385 


386 


if lire- bind(sockfd F my„addr r addrlen)) 

("Bind 


01 


< 


387 


urux_ error 


error 


822 


38S } 


389 


39 J void Listen ( int 

391 t 


int backlog) 




392 


int ic ； 


393 


if I (rc 


394 


1isten Cs ； backlog)) 
uni terror ("Listen error"); 


0) 


< 


395 


396 } 


39 


3 98 int Accept ( int 
399 i 


struct sockaddr *addr^ int *addrlen} 




ir 丄 rc; 


400 


40 ： 


i: ((rc 


402 


acceptaddt, addrlen }) 

unix_error ( H Accept error )； 


01 


< 




403 


404 


roturn rc; 


4(] 5 } 


406 


40 


void Connect(int socktd, ract sockaddr *serv_addr, int addrlen) 


40S { 


409 


int rc ； 


4 It ： 


411 


if ( (rc 


connect(^ockfserv^addr, addrlen)) 
unix_error( Pr Cormect error 11 )； 


0) 


< 




412 

413 } 

414 
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DNS interface wrappers 
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418 

419 struct hostent *Gethostbyriame (const char + name) 

4?0 { 


416 




421 


struct hosLent + p ； 


422 


423 


if ((p = gethostbyname(name]) 二 = NULL) 

dn^_error ('"Gethostbyname 
retura p; 


424 


error 


42 


426 } 


427 


428 struct hostent *Gethostbyaddr(const char *addr, int len, int type) 

429 \ 


430 


struct hostsnt 


P ； 


431 


432 


if ( ：p 


ge^hOKtbyaddr(addr, len, type)) 


NULL) 



错误处理 


H23 


433 


dns_error{ u 3ethoatbyaddr error"); 
return p; 


434 


435 ) 


436 


/术 # 砵中氺幸冰•本术本丰牟木淖木羊氺沣求木氺术 # 砵本丨木苹木 + 本木本丰术氺术丰氺本 # 

43 8 * Wrappers for Pthreads thread control functions 


439 


440 


441 void PLhread_creaLeipLhread_t *tidp, pthread_attr_c *attrp 

(^routine\(void *), void *argp} 


442 


void 


女 


443 { 


444 


int rc ； 


445 


if ((rc - pthread^create ( t idp, att rp f routine ? argp)i ! - 0) 

posix_error(rc 


446 


447 


Pthread create error 1 '); 


d4R ) 


449 


450 void Pihread_cancel(pthread_t tid) { 

int rc ； 


451 


452 


4b3 


if ( (rc = pt'^read_canceHtidi) 1 二 0) 

posix_error (rc! M Pthread_cancel 


454 


error 


455 ) 

456 

457 void PLhread_join(pthread_t tid, void 

int rc; 


t hread__return ) { 


458 


459 


460 


if f(rc - pthread_join(tid ； thread_return)1 ]= 0) 

Pthread_join 


461 


posix_error!rc 


error 


462 ) 


463 


464 void Pthread_detach[pthread_t tid) { 

inz rc ； 


465 


466 


467 


if ( (rc 


pt"hread_det:ach(tid)) !- 0) 

Pthread detach error p, j 


468 


posix 〜 error ■■ rc 


469 } 


470 


4^1 void Pthread_exit(void *retval)( 

pthread 一 exit(retval); 


H2 


473 } 


474 


475 pLhread_t Pthread_self (void)( 

returr. pthread_self (); 


476 


47 ?) 


824 


478 

479 void Pthreaci_once(pthread_once_t: *once_contrDl, void (*iniz_function) (}) { 

480 

481 } 

482 

本本术才本术本本本本牟砵 t 宇本啐 4# 荦本丰 # 丰丰举 4 丰本李 4 

484 


pthread_once(once_control r init_function); 


Wrappers forPosix semaphores 
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486 

487 void Senn_init (sem_t 

488 { 


* 


int pshared, unsigned int value) 


sem 


489 


if (sem_inii(sem, pshared, value) 

unix^error ； n Sem_init error 11 )； 


0) 


< 


490 


491 } 


492 


493 void P(sem_t *sem} 

494 f 


if {sem^wait ts^m) < 0) 

unix_error ( pr P error 11 ) 


495 


496 


497 } 


498 


499 void V(sem_t *sem] 

500 { 

501 
50； 

503 } 

504 
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508 /* 


if (sem_post(sem) 

unix_etror ( 


C] 


< 


error 


* 


506 


4 


rio^readn - robustly read n bytes (unbuffered) 


509 


510 V 

511 ssize_t rio^readn (int f<3, void *usrbuf f size_t n) 

512 ( 


513 


size_t nleft 
£size_t nread 
char *bu£p ^ usrbuf 


ti ； 




514 


515 


Sib 


517 


while (nleft > 0) { 

if [(nread = read(fd, bufp, nleft)) 

EINTR) /* interrupted by sig handler return */ 

/* and call read() again V 


518 


0 ) { 


< 


519 


if (errno 




520 


riread = 0; 


B21 


else 


522 


f* ermo set by read() */ 


return 一 1 




错误处理 


825 


523 


524 


else if (nread 

break ； 


0) 




52S 


产 EOF 


526 


nlef t 
bu—_p 


nread 

nread ； 




527 


52R 


529 


return >- 0 */ 


ret jrn {n - nleft )； 


WO } 


531 


532 /* 


+ rio_writen ■ robusily write n bytes (unbuffered) 


533 


534 




535 


ssize_t rio_writen(int fd, void *usrbuf, size 一 t n) 


536 i 


537 


nleft = 

ysize_t nwritlen ； 
char *t>ufp ^ usrbuf ； 


n; 


533 


539 


b40 


541 


while (nleft > 0) { 

if { (nwritten = 

i£ (errno == 

nwritlen 


542 


write[fd, bufp, nleft)) 

EINTR) /* imemipted by sig handler return *1 
= f* and call write() again */ 


0 } { 


< = 


543 


544 


545 


else 


546 


/* erromo set by write(j 


return 




54 


S43 


nieft 


nwritten; 

bufp 十 = nwritten ； 


549 


55] 


55 


return n 


5b2 } 


553 


5S4 


555 卜 




rio^read - This is a wrapper for the Unix read() function that 

transfers min(n, rio^cnt) bytes from an internal buffer to 

buffer, where n is the number of bytes requested by the user and 

rio 一 cm is the number of unread bytes in the internal buffer. On 

entry, rio_read() refills the interna] buffer via a call to 
read() if the imemal buffer is empty. 


b55 


557 


a user 




553 


559 


56( 


561 


562 


static tsize_t iic_read(rio_t 
564 { 


rp, char *usrbuf, size L n) 




int cnt ； 


566 


567 


while {rp->rio_cnt <= 0} 


{ refill if buf is empty */ 


826 


附录 


568 


fead(s:p->rio_fd , rp->rio_buf 

sizeof(rp->r;o_buf)); 


up->rio_cnt 


569 


if (rp->rio_cnt < 0)( 

i [ {errno 卜 E1NTR) /* interrupted by sig handler return 

return -1; 


570 


571 


572 


b73 


0) /* EOF V 


else i£ (rp->ria_cnt 

return 0; 


574 




576 


else 


rp->rio_buf ； / + reset buffer ptr */ 


rp->iio_bufptr 


579 


b79 


"Copy min(n, rp->rio_cnt) bytes from internal buf to user buf V 

cnt 

if (r] ： ->rio_cnL < n) 

cr.t = t p->r io_cnt; 

b84 memcpy (usibuf , rp->rio_buf ptr , cr.t) } 

5S5 rp->rio_bufptr +- cnt; 

rp->rio_cnt 

return cnt; 


b30 


581 


n ； 


582 


583 


「 j86 


cnt 




537 


53^ } 


S89 


590 


f ic 




rio_readinitb - Associate a descriptor with a read buffer and reset buffer 


59i 


b92 


* 


593 void rio_readiniLb (rio_t 


int fd) 




594 


b95 


rp->rio_fd 

rp->rio_cni - 0 ； 

rp->rio_bu£ptr = 


fd 


596 


597 


rp->ric_buf 


598 } 


599 


600 


/ + 


* 


rio_readtib - Robustly read n byces (buffered) 


6 [)1 


602 


603 ssize_t rio_readrit (rio_t 

604 t 


* 


void *usrbuf, eize_t n) 


rp 


60b 


^lze_t nleft 
ssize_t mead 

char *bufp = Lsrbuf; 


n 


606 


607 


608 


609 


while (nleft > 0) { 

if ((nread = rio_read(ip, bufp, nlefc)) 

if (ermo 

nread = 0; 


610 


0 )( 

/* interrupted by sig handler return * / 
/* call read() again * / 


< 


611 


EINTRI 


612 




错误处理 


827 


6]3 


else 


/* ermo set by read() */ 


614 


return -1 ； 


615 


616 


else if (riread 二 = 0} 

!* EOF V 


617 


break ； 

nleft -二 nread 

bufp += nread ； 


618 


619 


620 


621 


return (n - r.left) ; /* return >= 0 */ 


622 } 


623 


624 /★ 


625 * rio_readlineb - robustly read a te?ct line (buffered) 


626 


★ 


627 ssize„t rio_readlineb(rio_t *rp^ void + usrbuf f si z^_t ^iaxlen) 

623 ( 


629 


int n, rc ； 

char c, *bufp = usrbuf; 


630 


632 


for (n 1 ； n < naxlen; n+4) { 

rio^readtrp, kc f 1)) 二 = 1)( 


633 


if ( (re 


634 


*bufp+ 

if (c == H \n H ) 

break ； 

} else if fre == 0) { 

if (n == 1) 

return 0 ； / + EOF, no data read */ 


c 


635 


636 


637 


638 


639 


640 


else 


641 


break 


/* EOF, some data was read */ 


642 


]else 


643 


/* error */ 


return -1 : 


644 


645 


*bu£p ^ 0; 

return n ； 


646 


647 } 


643 
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Wrappers for robust I/O routines 


650 
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652 ssize t 


Rio_readn(irtt fd H void *ptr, size_t nbytesl 


653 { 


654 


3S3ze_t n ； 


6^5 


656 


if ((n 


no_readn(fd, ptr r nbytes) ) < 0) 

unix_error[ n Rio readn 


65^ 


error 


828 


658 


return n 


659 ) 


660 


661 void Rio_writentint fd, void *usrbuf, size_t n) 
66S f 

663 

664 

665 } 


if (rio—writenffd 』 usrbuf f n] n) 

urLix_error("Rio writenb 


error 


666 


667 void Rio_readinitb(rio_t *rp, int fd) 

668 { 


669 


r:o_r^adi n i tb{rp, Ed) 


67U } 

671 

672 ssize_t Rio_readnb(rio_t 

673 ( 


★ 


rp r void *usrbuf f size_t r) 


674 


ssize_t re; 


675 


676 


rio_readnb(rp f usrbuf ； n)) 
unix_error ( n Rio_readnb error 11 )； 
return rc ； 


if Krc 


0) 


< 


677 


S70 


679 } 


680 


681 ssize_t Rio_readlinet) (rio_t 

682 { 


rp f void *usrbuf, size_t maxlen) 


683 


ssize_t rc ； 


684 


635 


if ((rc 


rio_readlmeb(rp, usrbuf, maxlen)) 
\inix_error (^Rio^readlineb 


0) 




< 


686 


error 


687 


return rc; 


68 & } 


6BS 
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69 ] 卜 
694 

693 

696 

697 

698 V 

699 int. open_clientfdfchar ^hostname, inL port) 

700 { 


691 


* 




open_clietitfd - open connection to server at <hostname, port> 

and return a socket descriptor ready for reading and writing, 
Returns -l and sets ermo on Unix error 

Returns -2 and sets h_ermo on DNS (geihostbyname) error. 


« 




本 


701 


int clientfd ； 
struct hostent *hp ； 


7 0；: 



错误处理 


829 


703 


struct sockaddr_in serveraddr ； 


704 


i£ ((clientfd 二 socket(AF_INET, SOCK.STREAM, 0)) 

return -1 ； /* check ermo for cause of error */ 


0 ) 


705 


< 


706 


707 


/* Fill in the server's IP address and port */ 

if ((hp = gethostbyname(hostname)i 

return -2 ； /* check h 一 ermo for cause of error W 
bzero ((char *) &serveraddr, sizeof(serveraddr)) ； 
serveraddr,sin_f amily = AF_1NET ； 

bcopy( i char *)hp->h_addr, 

(char *) Sc serve raddr,sin_a ddr, s_addr, hp->h_length ); 

htons{port); 


708 


HULL) 


709 




710 


711 


712 


713 


714 


715 


serveraddr.sin_port 


716 


/* Establish a connection with the server */ 

if (connect (clientfd, (SA *) Siserveraddr, sizeof (serveraddr) ! 

return -1; 
retarn clientfd; 


717 


718 


0) 


< 


719 


720 


721 } 


722 


723 


724 


openjistefifd ■ open and return a listening socket on port 

Returns -1 and sets enmo on Unix error. 


* 


725 


726 V 

727 int open_listenfd(inL port) 

728 { 


int listenfd, optval=l; 
struct sockaddr in serveraddr 


729 


730 


731 


/* Create a socket descriptor + / 

if ((listened 

return -1; 


732 


733 


socket (.^F_INET, SOCK_STREAM, 0)) < 0) 


734 


735 


736 


(* Eliminates "Address already in use” error from bind. */ 

if (setsockopt(listenfd, SOL_SOCKET f SO_REU3EADDR 

{const void fr )&optval 


737 


738 


sizeof(in 匕 ） ) 


0 ) 


< 


739 


return 一 1 


7^30 


/* Listenfd will be an endpoint for all requests to port 

■ 

on any IP address for this host */ 

bsero((char *) ^serveraddr^ sizeof(serveraddr)); 
serveraddr.sin_family = AF_IMET ； 

serveraddr,sin_addr.s_addr = htonl(INADDR_ANY) ? 

serveraddr,sin_port = htons[(unsigned short)port) 
if (bind(listenfd, (SA *)&serveraddr, sizeof(serveraddr)) 


7^1 


742 


743 


744 


745 


746 


■ 

f 


0! 


< 



830 


附录 


748 


return -1; 


749 


/* Make it a listening socket ready to accept connection requests V 

if (1isten(lisLenfd, LISTENQ) < 0) 

return -1; 

return listenfd ； 


750 


751 


752 


7 b 3 


754 } 


755 


7 56 /** 料 
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759 int Open_clientfd{char *hostname, int port) 
160 { 


* 


75 


761 


xnt rc 


762 


763 


if i (rc 


open_clientfd(hostname f port)) 


0 ) { 


< 




if (rc 


764 


- 1 } 




765 


unix_error {"Openedientfd Unix 


error 


766 


else 


767 


dns_error POpen_clientfd DMS 


li 


error 


763 


769 


return rc 


770 ) 


77： 


72 int Open_listenfd [int port) 


m 


int rc; 


775 


77 6 


f ( (rc - operi^listenEd (pore)) 

unix_error ( 11 Open_li£tenfd 
return rc; 


0 ) 




< 


77 


errer 


/78 


779 ) 


code/src/csapp. c 



